AI学习笔记

本文对比了PKU Seg与jieba中文分词工具的性能,PKU Seg在准确性和多领域应用上表现出色,特别是在大规模数据处理中展现出优越速度。LTP、ICTCLAS和THULAC也被提及作为参照,jieba以其快速和简洁受到关注。
摘要由CSDN通过智能技术生成

GitHub - fxsjy/jieba: 结巴中文分词https://github.com/fxsjy/jieba结巴”中文分词:做最好的 Python 中文分词组件

参考下 自然语言处理(Natural Language Processing)

  • NLTK:构建Python程序以处理人类语言数据的领先平台。连接 - 推荐
  • jieba:中文分词工具。官网 - 推荐
  • langid.py:独立的语言识别系统。官网
  • Pattern:Python 网络信息挖掘模块。官网 - 推荐
  • SnowNLP:用来处理中文文本的库。官网 - 推荐
  • TextBlob:为进行普通自然语言处理任务提供一致的 API。官网 - 推荐
  • TextGrocery:一简单高效的短文本分类工具,基于 LibLinear 和 Jieba。官网

北京大学pkuseg-python

  • https://github.com/lancopku/pkuseg-python

  • 高分词准确率。相比于其他的分词工具包,我们的工具包在不同领域的数据上都大幅提高了分词的准确度。根据我们的测试结果,pkuseg分别在示例数据集(MSRA和CTB8)上降低了79.33%和63.67%的分词错误率。
  • 多领域分词。我们训练了多种不同领域的分词模型。根据待分词的领域特点,用户可以自由地选择不同的模型。
  • 支持用户自训练模型。支持用户使用全新的标注数据进行训练。
  • 代表分词软件的性能对比

    我们选择LTP、ICTCLAS、结巴分词等国内代表分词软件与THULAC做性能比较。我们选择Windows作为测试环境,根据第二届国际汉语分词测评发布的国际中文分词测评标准,对不同软件进行了速度和准确率测试。

    在第二届国际汉语分词测评中,共有四家单位提供的测试语料(Academia Sinica、 City University 、Peking University 、Microsoft Research), 在评测提供的资源icwb2-data中包含了来自这四家单位的训练集(training)、测试集(testing), 以及根据各自分词标准而提供的相应测试集的标准答案(icwb2-data/scripts/gold).在icwb2-data/scripts目录下含有对分词进行自动评分的perl脚本score。

    我们在统一测试环境下,对若干流行分词软件和THULAC进行了测试,使用的模型为各分词软件自带模型。THULAC使用的是随软件提供的简单模型Model_1。评测环境为 Intel Core i5 2.4 GHz 评测结果如下:

    msr_test(560KB)

    AlgorithmTimePrecisionRecall
    LTP-3.2.03.21s0.8670.896
    ICTCLAS(2015版)0.55s0.8690.914
    jieba0.26s0.8140.809
    THULAC0.62s0.8770.899

    pku_test(510KB)

    AlgorithmTimePrecisionRecall
    LTP-3.2.03.83s0.9600.947
    ICTCLAS(2015版)0.53s0.9390.944
    jieba0.23s0.8500.784
    THULAC0.51s0.9440.908

    除了以上在标准测试集上的评测,我们也对各个分词工具在大数据上的速度进行了评测,结果如下:

    CNKI_journal.txt(51 MB)

    AlgorithmTimeSpeed
    LTP-3.2.0348.624s149.80KB/s
    ICTCLAS(2015版)106.461s490.59KB/s
    jieba22.5583s2314.89KB/s
    THULAC42.625s1221.05KB/s
    官网
  • gensim -人 性化的话题建模库。
  • spaCy - 用于Python和Cython的工业强度自然语言处理的库。 -推荐

NLTK是鼻祖,jieba,SnowNLP,thulac都有针对中文进行改进



作者:测试开发实战
链接:https://www.zhihu.com/question/57057613/answer/575677233
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

https://github.com/crhbolao/TextAnalysis
TextAnalysisz

中文语义分析(用两种方法----中文极性词典NTUSD 和 机器学习): 基于平台(java + jieba分词 + word2Vec + libsvm ) 

1.基于中文极性词典(NTUSD): sentence 通过结巴分词然后和中文极性词库进行对比,判断这段话的情感性别。

2.基于机器学习的语义分析: sentence 通过结巴分词,然后word2vec转换成向量,然后训练libsvm, 对测试语句同样转换成向量,利用libsvm进行预测。

3.尝试加入词权的分析:  基于BosonNLP词典进行中文语义分析。(情感词+否定词+程度副词)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值