GitHub - fxsjy/jieba: 结巴中文分词https://github.com/fxsjy/jieba结巴”中文分词:做最好的 Python 中文分词组件
参考下 自然语言处理(Natural Language Processing)
- NLTK:构建Python程序以处理人类语言数据的领先平台。连接 - 推荐
- jieba:中文分词工具。官网 - 推荐
- langid.py:独立的语言识别系统。官网
- Pattern:Python 网络信息挖掘模块。官网 - 推荐
- SnowNLP:用来处理中文文本的库。官网 - 推荐
- TextBlob:为进行普通自然语言处理任务提供一致的 API。官网 - 推荐
- TextGrocery:一简单高效的短文本分类工具,基于 LibLinear 和 Jieba。官网
北京大学pkuseg-python
-
https://github.com/lancopku/pkuseg-python
- 高分词准确率。相比于其他的分词工具包,我们的工具包在不同领域的数据上都大幅提高了分词的准确度。根据我们的测试结果,pkuseg分别在示例数据集(MSRA和CTB8)上降低了79.33%和63.67%的分词错误率。
- 多领域分词。我们训练了多种不同领域的分词模型。根据待分词的领域特点,用户可以自由地选择不同的模型。
- 支持用户自训练模型。支持用户使用全新的标注数据进行训练。
-
代表分词软件的性能对比
我们选择LTP、ICTCLAS、结巴分词等国内代表分词软件与THULAC做性能比较。我们选择Windows作为测试环境,根据第二届国际汉语分词测评发布的国际中文分词测评标准,对不同软件进行了速度和准确率测试。
在第二届国际汉语分词测评中,共有四家单位提供的测试语料(Academia Sinica、 City University 、Peking University 、Microsoft Research), 在评测提供的资源icwb2-data中包含了来自这四家单位的训练集(training)、测试集(testing), 以及根据各自分词标准而提供的相应测试集的标准答案(icwb2-data/scripts/gold).在icwb2-data/scripts目录下含有对分词进行自动评分的perl脚本score。
我们在统一测试环境下,对若干流行分词软件和THULAC进行了测试,使用的模型为各分词软件自带模型。THULAC使用的是随软件提供的简单模型Model_1。评测环境为 Intel Core i5 2.4 GHz 评测结果如下:
msr_test(560KB)
Algorithm Time Precision Recall LTP-3.2.0 3.21s 0.867 0.896 ICTCLAS(2015版) 0.55s 0.869 0.914 jieba 0.26s 0.814 0.809 THULAC 0.62s 0.877 0.899 pku_test(510KB)
Algorithm Time Precision Recall LTP-3.2.0 3.83s 0.960 0.947 ICTCLAS(2015版) 0.53s 0.939 0.944 jieba 0.23s 0.850 0.784 THULAC 0.51s 0.944 0.908 除了以上在标准测试集上的评测,我们也对各个分词工具在大数据上的速度进行了评测,结果如下:
CNKI_journal.txt(51 MB)
官网Algorithm Time Speed LTP-3.2.0 348.624s 149.80KB/s ICTCLAS(2015版) 106.461s 490.59KB/s jieba 22.5583s 2314.89KB/s THULAC 42.625s 1221.05KB/s - gensim -人 性化的话题建模库。
- spaCy - 用于Python和Cython的工业强度自然语言处理的库。 -推荐
NLTK是鼻祖,jieba,SnowNLP,thulac都有针对中文进行改进
作者:测试开发实战
链接:https://www.zhihu.com/question/57057613/answer/575677233
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
https://github.com/crhbolao/TextAnalysis
TextAnalysisz
中文语义分析(用两种方法----中文极性词典NTUSD 和 机器学习): 基于平台(java + jieba分词 + word2Vec + libsvm )
1.基于中文极性词典(NTUSD): sentence 通过结巴分词然后和中文极性词库进行对比,判断这段话的情感性别。
2.基于机器学习的语义分析: sentence 通过结巴分词,然后word2vec转换成向量,然后训练libsvm, 对测试语句同样转换成向量,利用libsvm进行预测。
3.尝试加入词权的分析: 基于BosonNLP词典进行中文语义分析。(情感词+否定词+程度副词)