常用自然语言处理python库


前言

总结一下自己使用的文本处理python库。

一、jieba

“结巴”中文分词:做最好的 Python 中文分词组件

参考网站
https://github.com/fxsjy/jieba
https://www.jb51.net/article/243626.htm

主要功能

  1. 分词
    支持四种分词模式
    支持繁体分词
    支持自定义词典
  2. 关键词提取
    基于 TF-IDF 算法的关键词抽取
    基于TextRank 算法的关键词抽取
  3. 词性标注
  4. 并行分词
  5. Tokenize:返回词语在原文的起止位置
  6. ChineseAnalyzer for Whoosh 搜索引擎
  7. 命令行分词

总结
在对中文文本进行处理时使用。个人经常使用的功能:自定义词典进行分词、词性标注。

二、MeCab

MeCab: Yet Another Part-of-Speech and Morphological Analyzer

参考网站
日文介绍网页:https://taku910.github.io/mecab/
日翻中网页:日文分词器 Mecab 文档

主要功能

  1. 分词
  2. 词法解析
  3. ……

总结
在对日语文本进行处理时使用。个人使用较少。

三、Polyglot

Polyglot is a natural language pipeline that supports massive multilingual applications.

参考网站
https://polyglot.readthedocs.io/en/latest/

主要功能

  1. 分词分句——Tokenization (165 Languages)
  2. 语种检测——Language detection (196 Languages)
  3. 命名实体识别——Named Entity Recognition (40 Languages)
  4. 词性标注——Part of Speech Tagging (16 Languages)
  5. 情感分析——Sentiment Analysis (136 Languages)
  6. 词嵌入——Word Embeddings (137 Languages)
  7. 形态分析——Morphological analysis (135 Languages)
  8. 翻译——Transliteration (69 Languages)

总结
支持语言种类比较多。个人经常使用的功能:语种检测、分词、分句。

三、NLTK

NLTK has been called “a wonderful tool for teaching, and working in, computational linguistics using Python,” and “an amazing library to play with natural language.”

参考网站
官方文档:https://www.nltk.org/index.html

主要功能
分词分句、去除停用词、词性标注、词干提取、命名实体识别、句法分析、文本分类、情感分析……

总结
NLTK库功能强大易于使用,它提供了大量的文本处理工具和算法,适用于从简单的文本处理任务到复杂的自然语言分析和理解任务。

总结

记录下没使用过但是未来可能会用到的工具:
SpaCy
https://spacy.io/usage/models
https://github.com/explosion/spaCy
StanfordNLP(Stanza)
https://github.com/stanfordnlp/stanfordnlp
https://github.com/stanfordnlp/stanza
TextBlob
https://textblob.readthedocs.io/en/dev/
https://pypi.org/project/textblob/
https://github.com/sloria/textblob

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值