数据挖掘
文章平均质量分 84
seekerhit
这个作者很懒,什么都没留下…
展开
-
Python实现决策树算法 C4.5和ID3算法
本文以python语言实现了C4.5和ID3算法,默认为C4.5算法,若要使用ID3算法,将函数 entropy()最后的返回值改变一下即可,即注释掉C4.5那行代码,启用ID3那行代码即可。将源代码保存为python文件,命名为c45.py,最后一个参数为数据的路径,可自由设置,参考以下运行方式:python c45.py data.txt特别感谢:点击打开链接源代码原创 2016-03-15 23:22:12 · 2178 阅读 · 0 评论 -
KNN 算法的python实现 迭代训练方式,将最近的测试样例作为训练样例扩大训练集
KNN算法的原理不在赘述,直接介绍源代码使用方式。将代码保存为.py格式,默认使用的数据是代码文件所在目录下data目录下的 knn_train.txt 和knn_test.txt 两个文件分别作为训练样例和测试样例,默认k_value=3。以上参数可以在源代码中修改,也可以使用命令行参数传入,参考以下启动方式:python knn.py train.txt test.txt 4命令后原创 2016-03-16 11:54:37 · 2664 阅读 · 0 评论 -
数据分类K—means 算法的python代码实现
k_means算法是用来进行数据分类的,尤其适用于相同维度数据集合的分类。形象来说,以2维平面为例,原始数据则可以看做是分布在其中的一些点,而分类则是需要找出一些中心点(可能不属于这些数据)将这些数据点分成一个个集合,如此便完成了分类。算法主要步骤为:1) 选择 K 个起始的中心点2) 按照欧拉距离最小的原则,将原始数据分类到这K个中心点形成的集合中3) 重新计算这K 个中心点原创 2016-04-05 19:10:15 · 1679 阅读 · 0 评论 -
朴素贝叶斯算法(Naive Bayes)算法的python实现 含源代码
算法原理不在赘述,请参考:朴素贝叶斯分类算法将代码保存为.py格式,默认使用的数据是代码文件所在目录下data目录下的 bayes_train.txt 和bayes_test.txt 两个文件分别作为训练样例和测试样例。以上参数可以在源代码中修改,也可以使用命令行参数传入,参考以下启动方式:python bayes.py bayes_train.txt bayes_test原创 2016-03-26 15:53:10 · 10248 阅读 · 1 评论 -
PageRank算法的python实现
算法原理不在赘述,请参考:http://blog.csdn.net/androidlushangderen/article/details/43311943将代码保存为.py格式,默认使用的数据是代码文件所在目录下data目录下的 pgr_data.txt 文件分别作为源数据输入。以上参数可以在源代码中修改,也可以使用命令行参数传入,参考以下启动方式:python pagerank原创 2016-03-26 18:58:56 · 5183 阅读 · 4 评论 -
网页排序 HITS算法的python实现
算法原理不在赘述,请参考:http://blog.csdn.net/hguisu/article/details/8013489将代码保存为.py格式,默认使用的数据是代码文件所在目录下data目录下的 pgr_data.txt 文件分别作为源数据输入。以上参数可以在源代码中修改,也可以使用命令行参数传入,参考以下启动方式:python hits.py pgr_data.txt原创 2016-03-26 19:05:55 · 4864 阅读 · 4 评论