数据挖掘
文章平均质量分 62
lanse12_17
每天一小步,总会走出一大步
展开
-
《数据科学实战》-note0.1
《数据科学实战》上看到关于用户相似性的度量,查了几种距离,其中Jaccard距离可以用来描述相似性,不过简单地把属性类别处理成了0/1。转载 2017-03-17 16:53:03 · 269 阅读 · 0 评论 -
数据挖掘中的抽样方法--简单记录
有很多种抽样方法,这里只介绍少数最基本的抽样技术和它们的变形。简单随机抽样:选定任何项的概率相等。两种变形:(1)有放回抽样;(2)无放回抽样在有放回抽样中,相同的对象可能会被多次抽中。当样本与数据集相比相对较少的时候,两种方法 产生的样本差别不大。分层抽样:总体由不同对象组成,每种类型的对象差别很大。简单随机抽样不能充分地代表不太频繁出现的对象类型。分层抽样可以从预先原创 2017-03-07 07:29:36 · 3330 阅读 · 0 评论