数据挖掘
FourFatCats
随笔集中地
展开
-
数据挖掘系列笔记(1)——亲和性分析
亲和性分析是根据样本个体(物体)之间的相似度,确定它们关系的亲疏。在数据挖掘中有大量的应用场景,比如顾客更愿意同时购买哪些物品。亲和性有多种测量方法。例如,统计两件商品一起出售的频率,或者统计顾客购买了商品1 后再买商品2的比率。最常用的用来进行亲和性分析的两个重要概念是:支持度(support)和置信度(confidence)。举个例子:我们说在全班同学的样本中间,地理90分以上的同学历史也...原创 2019-03-02 08:09:03 · 2052 阅读 · 0 评论 -
数据挖掘系列笔记(2)——分类规则 ONERULE方法
课本内容回顾:分类是数据挖掘领域为常用的方法之一,不论是实际应用还是科研,都少不了它的身影。对于分类问题,我们通常能拿到表示实际对象或事件的数据集,我们知道数据集中每一条数据所属的类别,这些类别把一条条数据划分为不同的类。数据处理在这里的目标就是根据已有的数据训练分类模型,然后可以用以对新样本的分类。实验内容:使用著名的Iris植物分类数据集:集共有150条植物数据,每条数据都 给出了...原创 2019-03-02 09:40:41 · 2436 阅读 · 1 评论 -
数据挖掘系列笔记(4)——决策树和随机森林
决策树和随机森林的概念理解:决策树:是构建一个二叉树模型,利用对象的某些特征值,下降分类的范围,直到得到确定的一个类别。理解方法:可以参考之前的ONER算法,那边是用一个特征值,然后根据特征值的区间或者离散点的分布,然后直接IF、ELSE得到类别。决策树的训练和它类似,是用部分特征值和分类结果进行训练,得到一个树状的判断序列,利用序列得到分类结果。实验依然使用sklearn的库实现...原创 2019-03-05 23:37:56 · 1201 阅读 · 0 评论 -
数据挖掘系列笔记(3)——估计器
内容提要:估计器是scikit库里面已经封装好的识别算法模板,通过直接调用估计器的函数能完成自动的分类算法,并进行输出准确率估计。实用性来看未必很准确,但是如果能找到合适的方法和参数,要比自己构造模型训练算法方便很多。主要包括以下概念: 估计器(Estimator):用于分类、聚类和回归分析。 转换器(Transformer):用于数据预处理和数据转换。 流水线(Pipeline...原创 2019-03-03 20:28:18 · 1734 阅读 · 0 评论