AI学习笔记

corilead

已于 2022-05-20 10:39:51 修改

阅读量118

点赞数

分类专栏： AI学习笔记文章标签：学习

于 2022-05-13 09:26:20 首次发布

本文链接：https://blog.csdn.net/corilead/article/details/124745222

版权

AI学习笔记专栏收录该内容

1 篇文章 0 订阅

订阅专栏

本文对比了PKU Seg与jieba中文分词工具的性能，PKU Seg在准确性和多领域应用上表现出色，特别是在大规模数据处理中展现出优越速度。LTP、ICTCLAS和THULAC也被提及作为参照，jieba以其快速和简洁受到关注。

摘要由CSDN通过智能技术生成

GitHub - fxsjy/jieba: 结巴中文分词https://github.com/fxsjy/jieba结巴”中文分词：做最好的 Python 中文分词组件

参考下自然语言处理(Natural Language Processing)

NLTK：构建Python程序以处理人类语言数据的领先平台。连接 - 推荐
jieba：中文分词工具。官网 - 推荐
langid.py：独立的语言识别系统。官网
Pattern：Python 网络信息挖掘模块。官网 - 推荐
SnowNLP：用来处理中文文本的库。官网 - 推荐
TextBlob：为进行普通自然语言处理任务提供一致的 API。官网 - 推荐
TextGrocery：一简单高效的短文本分类工具，基于 LibLinear 和 Jieba。官网

北京大学pkuseg-python

https://github.com/lancopku/pkuseg-python

高分词准确率。相比于其他的分词工具包，我们的工具包在不同领域的数据上都大幅提高了分词的准确度。根据我们的测试结果，pkuseg分别在示例数据集（MSRA和CTB8）上降低了79.33%和63.67%的分词错误率。
多领域分词。我们训练了多种不同领域的分词模型。根据待分词的领域特点，用户可以自由地选择不同的模型。
支持用户自训练模型。支持用户使用全新的标注数据进行训练。
代表分词软件的性能对比

我们选择LTP、ICTCLAS、结巴分词等国内代表分词软件与THULAC做性能比较。我们选择Windows作为测试环境，根据第二届国际汉语分词测评发布的国际中文分词测评标准，对不同软件进行了速度和准确率测试。

在第二届国际汉语分词测评中，共有四家单位提供的测试语料（Academia Sinica、 City University 、Peking University 、Microsoft Research）, 在评测提供的资源icwb2-data中包含了来自这四家单位的训练集（training）、测试集（testing）, 以及根据各自分词标准而提供的相应测试集的标准答案（icwb2-data/scripts/gold）．在icwb2-data/scripts目录下含有对分词进行自动评分的perl脚本score。

我们在统一测试环境下，对若干流行分词软件和THULAC进行了测试，使用的模型为各分词软件自带模型。THULAC使用的是随软件提供的简单模型Model_1。评测环境为 Intel Core i5 2.4 GHz 评测结果如下：

msr_test（560KB）

Algorithm Time Precision Recall
LTP-3.2.0 3.21s 0.867 0.896
ICTCLAS(2015版) 0.55s 0.869 0.914
jieba 0.26s 0.814 0.809
THULAC 0.62s 0.877 0.899
pku_test（510KB）

Algorithm Time Precision Recall
LTP-3.2.0 3.83s 0.960 0.947
ICTCLAS(2015版) 0.53s 0.939 0.944
jieba 0.23s 0.850 0.784
THULAC 0.51s 0.944 0.908
除了以上在标准测试集上的评测，我们也对各个分词工具在大数据上的速度进行了评测，结果如下：

CNKI_journal.txt（51 MB）

Algorithm Time Speed
LTP-3.2.0 348.624s 149.80KB/s
ICTCLAS(2015版) 106.461s 490.59KB/s
jieba 22.5583s 2314.89KB/s
THULAC 42.625s 1221.05KB/s
官网
gensim -人性化的话题建模库。
spaCy - 用于Python和Cython的工业强度自然语言处理的库。 -推荐

Algorithm	Time	Precision	Recall
LTP-3.2.0	3.21s	0.867	0.896
ICTCLAS(2015版)	0.55s	0.869	0.914
jieba	0.26s	0.814	0.809
THULAC	0.62s	0.877	0.899

Algorithm	Time	Precision	Recall
LTP-3.2.0	3.83s	0.960	0.947
ICTCLAS(2015版)	0.53s	0.939	0.944
jieba	0.23s	0.850	0.784
THULAC	0.51s	0.944	0.908

Algorithm	Time	Speed
LTP-3.2.0	348.624s	149.80KB/s
ICTCLAS(2015版)	106.461s	490.59KB/s
jieba	22.5583s	2314.89KB/s
THULAC	42.625s	1221.05KB/s

NLTK是鼻祖，jieba，SnowNLP，thulac都有针对中文进行改进

作者：测试开发实战
链接：https://www.zhihu.com/question/57057613/answer/575677233
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

https://github.com/crhbolao/TextAnalysis
TextAnalysisz

中文语义分析（用两种方法----中文极性词典NTUSD 和 机器学习）： 基于平台（java + jieba分词 + word2Vec + libsvm ） 

1.基于中文极性词典(NTUSD)： sentence 通过结巴分词然后和中文极性词库进行对比，判断这段话的情感性别。

2.基于机器学习的语义分析： sentence 通过结巴分词，然后word2vec转换成向量，然后训练libsvm, 对测试语句同样转换成向量，利用libsvm进行预测。

3.尝试加入词权的分析：  基于BosonNLP词典进行中文语义分析。（情感词+否定词+程度副词）