PyMining-开源中文文本数据挖掘平台 Ver 0.1发布

转载 2013年12月03日 20:25:22

http://code.google.com/p/python-data-mining-platform/ (可能需翻墙)

目前已经在该googlecode中加入了Tutorial等内容,可以在wiki中查看

项目介绍(复制自项目首页的说明):

这是一个能够根据源数据(比如说用csv格式表示的矩阵,或者中文文档)使用多种多样的算法去得到结果的一个平台。 

算法能够通过xml配置文件去一个一个的运行,比如在开始的时候,我们可以先运行一下主成分分析算法去做特种选择,然后我们再运行随机森林算法来做分类。 

目前算法主要是针对那些单机能够完成的任务,该架构良好的扩展性能够让你在很短的时间内完成自己想要的算法,并且用于工程之中(相信我,肯定比Weka更快更好)。该项目的另一个特色是能够很好的支持中文文本的分类、聚类等操作。 

只需要写下下面的程序,就能够得到神奇的结果(对文本进行特征选择、得到naive bayes分类模型,并且预测):

   1: #load config
   2: config = Configuration.FromFile("conf/test.xml")
   3: PyMining.Init(config, "__global__")
   4:     
   5: #get matrix from source text
   6: matCreater = ClassifierMatrix(config, "__matrix__")
   7: [trainx, trainy] = matCreater.CreateTrainMatrix("data/train.txt")
   8:     
   9: #get chi square filter
  10: chiFilter = ChiSquareFilter(config, "__filter__")
  11: chiFilter.TrainFilter(trainx, trainy)
  12:     
  13: #runs naive-bayes model to get model
  14: nbModel = TwcNaiveBayes(config, "twc_naive_bayes")
  15: nbModel.Train(trainx, trainy)
  16:  
  17: #using the model to predict an unseen doc to target class
  18: [testx, testy] = matCreater.CreatePredictMatrix("data/test.txt")
  19: [testx, testy] = chiFilter.MatrixFilter(testx, testy)
  20: retY = nbModel.TestMatrix(testx, testy)
 

目前的版本:

Ver 0.1(第二个开发版)

Features:

    上一版的Feature:

  • 能够支持中文文本输入,并且对其进行分词等操作,作为分类的源数据
  • 带有卡方检测(chi square test)的特征词选择器(feature selector)
  • 参数的调整(parameter tuning)支持通过xml配置文件进行

     新增Feature:

  • 加入了K-Means算法,能够对文本进行聚类
  • 加入了基于补集的朴素贝叶斯算法,大大提升了分类的准确率,目前该算法在搜狗实验室文本分类数据中,对20000篇、8分类左右的数据的预测准确率在90%左右
  • 加入了Sogou实验室文本分类数据的导入器,可以进行更多的实验

获取PyMining:

     于http://code.google.com/p/python-data-mining-platform/downloads/detail?name=pymining_0_1.zip&can=2&q=#makechanges,可获取目前最新的ver 0.1版(可能需要翻墙)

     不用翻墙的版本:http://files.cnblogs.com/LeftNotEasy/pymining_0_1.zip

8
0
    (请您对文章做出评价)   
« 上一篇:机器学习中的算法(2)-支持向量机(SVM)基础
» 下一篇:PyMining-开源中文文本数据挖掘平台 Ver 0.2发布

支持中文文本的数据挖掘平台开源项目PyMining发布

本文转自http://www.cnblogs.com/LeftNotEasy/archive/2011/02/27/py_mining_first_release.html 前言   ...
  • sky1203850702
  • sky1203850702
  • 2015年01月29日 16:57
  • 1395

Tomcat漏洞利用

by 鬼仔 有些Tomcat安装之后没有修改默认密码(用户名admin,密码为空),这样就可以直接登录进去。 有两个目录可以访问: /admin /manager/html /admin...
  • chen19921212
  • chen19921212
  • 2014年08月15日 10:47
  • 1999

支持中文文本的数据挖掘平台开源项目PyMining发布

前言      最近一个月,过年的时候天天在家里呆着,年后公司的事情也不断,有一段时间没有更新博客了。PyMining是我最近一段时间构思的一个项目,虽然目前看来比较微型。该项目主要是针对中文文本的...
  • zxsted
  • zxsted
  • 2013年12月03日 21:00
  • 689

中文纠错实战

特定应用领域中文纠错
  • jccg3030
  • jccg3030
  • 2017年02月07日 14:21
  • 1996

OpenJWeb2.61 Java Web应用快速开发平台全部开源公告

OpenJWeb2.61版全部开源公告OpenJWeb2.61版Java Web应用快速开发平台已向全社会开放所有源代码。OpenJWeb是国内商用级Java Web应用快速开发平台唯一全部开放源代码...
  • baozhengw
  • baozhengw
  • 2013年07月28日 14:24
  • 14235

中科院计算所开源深度文本匹配开源工具 MatchZoo

中国科学院计算技术研究所网络数据科学与技术重点实验室近日发布了深度文本匹配开源项目 MatchZoo。MatchZoo 是一个 Python 环境下基于 TensorFlow 开发的开源文本匹配工具,...
  • qq_19598705
  • qq_19598705
  • 2017年12月07日 19:09
  • 276

7 个开源的TTS(文本转语音)系统推荐

前言:TTS在电视产品的应用,能够帮助对电视机界面无法采用可视化标准访问的盲人和弱视的人,在欧洲在美国已经开始制订了规范的实现标准,和实施的规章制度。 Ref: http:...
  • yellow_hill
  • yellow_hill
  • 2017年08月02日 13:55
  • 1473

运维工具大宝典之开源平台篇

在运维工具大宝典系列第一篇文章《运维工具大宝典之运维需求篇》中,云智慧对上云企业的运维需求进行的汇总,其中第6条“对开源的强烈需求”主要是来自运维人员,特别是技术大牛,他们喜欢一切尽在掌握的感脚,而这...
  • cloudwiseAPM
  • cloudwiseAPM
  • 2015年11月23日 17:28
  • 1837

Wiki开源软件介绍

转自:http://www.cnblogs.com/me115/archive/2011/05/27/2059636.html Wiki 是一个协同著作平台或称开放编辑系统。所谓协同工作, 即它能够...
  • yueguanyun
  • yueguanyun
  • 2013年01月25日 09:41
  • 1707

构想:中文文本标注工具(内附多个开源文本标注工具)

■ 项目地址 | https://github.com/crownpku/Chinese-Annotator 自然语言处理的大部分任务是监督学习问题。序列标注问题如中文分词、命名实体识别...
  • c9Yv2cf9I06K2A9E
  • c9Yv2cf9I06K2A9E
  • 2017年11月17日 00:00
  • 407
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:PyMining-开源中文文本数据挖掘平台 Ver 0.1发布
举报原因:
原因补充:

(最多只允许输入30个字)