python数据挖掘
Joker江
这个作者很懒,什么都没留下…
展开
-
《python数据挖掘入门与实践》笔记1
《python数据挖掘入门与实践》 OneR算法的实现。 对四个特征的花瓣数据进行分类。分类的规则可参考OneR算法的内容。原创 2017-03-09 20:44:49 · 2588 阅读 · 5 评论 -
《python数据挖掘入门与实践》笔记2
这一章的主要内容是使用scikit-learn估计器来实现分类,实现的算法是KN近邻算法。 近邻算法可能是标准数据挖掘算法中最为直观的一种。为了对新个体进行分类,它查找训练集,找到与新个体最相似的那些个体,看看这些个体大多属于哪个类别,就把新个体分到哪个类别。import os import numpy as np import csv #文档的格式为csv格式,所以需要导入csv的库。下面会用到来原创 2017-03-14 16:28:12 · 2285 阅读 · 3 评论 -
《python数据挖掘入门与实践》“电影推荐” 笔记3
在商品推荐的章节,用的方法是把所有的规则组合的方式,这样当数据集合n比较大的时候,需要求的组合数是2的n次幂,不便于计算。 因此这里使用的是另一种算法 Apriori算法。 算法的主要思想: (1) 把各项目放到只包含自己的项集中,生成最初的频繁项集。只使用达到最小支持度的项目。 (2) 查找现有频繁项集的超集,发现新的频繁项集,并用其生成新的备选项集。 (3) 测试新生成的备选项集的频繁程度,如原创 2017-03-15 20:28:31 · 2376 阅读 · 7 评论