Python
文章平均质量分 76
kunlong0909
这个作者很懒,什么都没留下…
展开
-
sklearn学习代码
from sklearn.ensemble import RandomForestClassifierimport pandas as pdfrom numpy import *import typestrain = pd.read_csv("data/train.csv")test = pd.read_csv("data/test.csv")#train["T2_V12"],_ =原创 2015-08-24 19:54:42 · 3271 阅读 · 0 评论 -
python数据挖掘领域工具包
Python在科学计算领域,有两个重要的扩展模块:Numpy和Scipy。其中Numpy是一个用python实现的科学计算包。包括:一个强大的N维数组对象Array;比较成熟的(广播)函数库;用于整合C/C++和Fortran代码的工具包;实用的线性代数、傅里叶变换和随机数生成函数。 SciPy是一个开源的Python算法库和数学工具包,SciPy包含的模块有最优转载 2015-08-24 16:59:21 · 973 阅读 · 0 评论 -
python中做层次聚类,使用scipy.cluster.hierarchy.fclusterdata方法
python机器学习包里面的cluster提供了很多聚类算法,其中ward_tree实现了凝聚层次聚类算法。但是没有看明白ward_tree的返回值代表了什么含义,遂决定寻找别的实现方式。经过查找,发现scipy.cluster.hierarchy.fclusterdata能够实现层次聚类。有关这个方法的介绍在:http://docs.scipy.org/doc/scipy/ref转载 2015-08-25 10:42:58 · 9683 阅读 · 0 评论 -
机器学习算法与Python实践之(五)k均值聚类(k-means)
机器学习算法与Python实践之(五)k均值聚类(k-means)zouxy09@qq.comhttp://blog.csdn.net/zouxy09 机器学习算法与Python实践这个系列主要是参考《机器学习实战》这本书。因为自己想学习Python,然后也想对一些机器学习算法加深下了解,所以就想通过Python来实现几个比较常用的机器学习算法。恰好遇转载 2015-08-25 10:54:04 · 1256 阅读 · 0 评论 -
Clustering text documents using k-means
源文档位置:http://scikit-learn.org/stable/auto_examples/document_clustering.htmlThis is an example showing how the scikit-learn can be used to cluster documents by topics using a bag-of-words approach.转载 2015-08-25 11:11:40 · 1160 阅读 · 0 评论 -
Gensim做中文主题模型(LDA)
中文语料来自http://www.sogou.com/labs/dl/c.html 的精简版(tar.gz格式) 24Mjerry@hq:/u01/jerry/Reduced$ lsC000008 C000010 C000013 C000014 C000016 C000020 C000022 C000023 C000024各个文件夹的分类:C000007 汽转载 2015-08-27 16:03:02 · 6828 阅读 · 0 评论 -
各种开源协议介绍 BSD、Apache Licence、GPL V2 、GPL V3 、LGPL、MIT
现今存在的开源协议很多,而经过Open Source Initiative组织通过批准的开源协议目前有58种(http://www.opensource.org/licenses /alphabetical)。我们在常见的开源协议如BSD, GPL, LGPL,MIT等都是OSI批准的协议。如果要开源自己的代码,最好也是选择这些被批准的开源协议。这里我们来看四种最常用的开源协议及它们的转载 2015-09-02 08:57:21 · 611 阅读 · 0 评论