大数据处理
FourFatCats
随笔集中地
展开
-
数据挖掘系列笔记(1)——亲和性分析
亲和性分析是根据样本个体(物体)之间的相似度,确定它们关系的亲疏。在数据挖掘中有大量的应用场景,比如顾客更愿意同时购买哪些物品。亲和性有多种测量方法。例如,统计两件商品一起出售的频率,或者统计顾客购买了商品1 后再买商品2的比率。最常用的用来进行亲和性分析的两个重要概念是:支持度(support)和置信度(confidence)。举个例子:我们说在全班同学的样本中间,地理90分以上的同学历史也...原创 2019-03-02 08:09:03 · 2049 阅读 · 0 评论 -
数据挖掘系列笔记(2)——分类规则 ONERULE方法
课本内容回顾:分类是数据挖掘领域为常用的方法之一,不论是实际应用还是科研,都少不了它的身影。对于分类问题,我们通常能拿到表示实际对象或事件的数据集,我们知道数据集中每一条数据所属的类别,这些类别把一条条数据划分为不同的类。数据处理在这里的目标就是根据已有的数据训练分类模型,然后可以用以对新样本的分类。实验内容:使用著名的Iris植物分类数据集:集共有150条植物数据,每条数据都 给出了...原创 2019-03-02 09:40:41 · 2434 阅读 · 1 评论