coreset construction for machine learning

coreset construction for machine learning

最近碰到了coreset,就大概看了一下。把简要的一些内容和大家分享一下(内容有点多,就只挑我认为的关键点)

coreset简介

为什么需要

这个有点多余,基本上面临大数据集的情况,一个是分布式的机器学习方法来进行处理,另一个是对数据集进行提炼,coreset就是为此而生;

什么叫coreset

简单来讲,就是从大数据集中选出一部分小量带权重的数据集,在这部分数据集的模型训练结果和全数据集的训练差别不大。
定义:
|cost(X,Q)cost(C,Q)|<=ε cost(X,Q) | c o s t ( X , Q ) − c o s t ( C , Q ) | <= ε   c o s t ( X , Q )
这里X可以看做是全体数据集,Q可以看做是function,cost是机器学习的成本函数 C是选出来的数据集。满足上述条件的C则被称为 ε ε -coreset

如何产生coreset :via importance sampling

这里关键的数据指标有两个,一是数据集有多大,二十按照什么指标进行挑选其中数据;
每个数据点的挑选按照概率q来进行,一直抽取到m个,挑选后的数据集的权重服从
这里就主要是两个问题,一是如何确定数据集大小m,一个是如何选择m个样本点
μC(x)=μχ(x)mq(x) μ C ( x ) = μ χ ( x ) m q ( x )
这里引入一个概念,sensitivity 评估每个数据点对目标函数的影响
σ(x)=supfQ(x)μ(x)fQ(x) σ ( x ) = s u p f Q ( x ) ∑ μ ( x ) f Q ( x )
s(x)σ(x) s ( x ) 可 以 看 做 σ ( x )
S=μχ(x)s(x) S = ∑ μ χ ( x ) s ( x )
q(x)=μχ(x)s(x)S q ( x ) = μ χ ( x ) s ( x ) S
这里f是我们训练的函数,u是数据集本身的权重;

那下一步重点是m大小的确定,直接放截图吧。
如何确定m
里面这个 gQ(x) g Q ( x ) 搞不懂怎么设计的,但是设计完这个函数后,可以一步步推到到m的大小;

这里针对的q是single query,如何理解single query,我的理解是在整个探索空间的一个函数方式。那其实整个探索空间很大,我们挑选模型,逻辑回归或者其他的时候,其实探索空间很广。这里假定的是我们的w都已经确定了,那么在w不确定情况下,其实是一个很广的搜索空间。针对全部都搜索空间,我们应该如何应对。这里面探讨的主要是vc维,也就是探索空间的维度对coreset的影响。
找时间再写在这里。

另外,如何寻找 σ(x) σ ( x ) 是与具体机器学习算法强绑定的。要计算的还是比较困难的。。。
paper链接放上
http://cn.arxiv.org/pdf/1703.06476v2

糖尿病是一种常见的慢性代谢性疾病,为了深入了解糖尿病的相关知识,构建医疗知识图谱是非常关键的。而构建医疗知识图谱需要高质量的数据集来进行注释。注释的数据集为糖尿病数据集,其中包含了多个方面的信息。 首先,该数据集涵盖了大量的病例数据,包括糖尿病患者的基本信息、生活方式、遗传背景等。这些信息对于疾病的研究和管理具有重要意义,可以帮助医生和研究人员更好地了解糖尿病患者的整体情况,并为个性化治疗和预防提供依据。 其次,数据集还包含了临床试验和研究的结果,例如药物治疗的效果、血糖控制的指标等。这些数据对于评估不同治疗方案的有效性和安全性非常重要,可以帮助医生选择最适合患者的治疗策略,提高治疗效果。 此外,数据集中还包含了糖尿病相关的基因表达、代谢组学和蛋白质组学等多组学数据。这些数据可以为研究人员提供更深入的分子机制理解,帮助揭示糖尿病的病理过程和疾病发展的关键因素。 数据集的注释分为多个层次,包括基本信息的标注、临床数据的归类、实验结果的解读等。这些注释可以帮助医生和研究人员系统地浏览和分析数据,快速获取所需的知识。 通过对糖尿病数据集的注释,可以构建起一个丰富而有机的医疗知识图谱,为糖尿病的研究、诊断和治疗提供更全面、准确的信息支持,促进医疗领域的发展和进步。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值