常用自然语言处理python库

最新推荐文章于 2024-07-07 15:00:42 发布

小白自述

最新推荐文章于 2024-07-07 15:00:42 发布

阅读量156

点赞数

分类专栏：文本处理文章标签：自然语言处理 python 人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40266601/article/details/134243350

版权

文本处理专栏收录该内容

3 篇文章 0 订阅

订阅专栏

文章目录

前言
一、jieba
二、MeCab
三、Polyglot
三、NLTK
总结

前言

总结一下自己使用的文本处理python库。

一、jieba

“结巴”中文分词：做最好的 Python 中文分词组件

参考网站：
https://github.com/fxsjy/jieba
https://www.jb51.net/article/243626.htm

主要功能

分词
支持四种分词模式
支持繁体分词
支持自定义词典
关键词提取
基于 TF-IDF 算法的关键词抽取
基于TextRank 算法的关键词抽取
词性标注
并行分词
Tokenize：返回词语在原文的起止位置
ChineseAnalyzer for Whoosh 搜索引擎
命令行分词

总结
在对中文文本进行处理时使用。个人经常使用的功能：自定义词典进行分词、词性标注。

二、MeCab

MeCab: Yet Another Part-of-Speech and Morphological Analyzer

参考网站：
日文介绍网页：https://taku910.github.io/mecab/
日翻中网页：日文分词器 Mecab 文档

主要功能

分词
词法解析
……

总结
在对日语文本进行处理时使用。个人使用较少。

三、Polyglot

Polyglot is a natural language pipeline that supports massive multilingual applications.

参考网站：
https://polyglot.readthedocs.io/en/latest/

主要功能

分词分句——Tokenization (165 Languages)
语种检测——Language detection (196 Languages)
命名实体识别——Named Entity Recognition (40 Languages)
词性标注——Part of Speech Tagging (16 Languages)
情感分析——Sentiment Analysis (136 Languages)
词嵌入——Word Embeddings (137 Languages)
形态分析——Morphological analysis (135 Languages)
翻译——Transliteration (69 Languages)

总结
支持语言种类比较多。个人经常使用的功能：语种检测、分词、分句。

三、NLTK

NLTK has been called “a wonderful tool for teaching, and working in, computational linguistics using Python,” and “an amazing library to play with natural language.”

参考网站：
官方文档：https://www.nltk.org/index.html

主要功能
分词分句、去除停用词、词性标注、词干提取、命名实体识别、句法分析、文本分类、情感分析……

总结
NLTK库功能强大易于使用，它提供了大量的文本处理工具和算法，适用于从简单的文本处理任务到复杂的自然语言分析和理解任务。

总结

记录下没使用过但是未来可能会用到的工具:
SpaCy
https://spacy.io/usage/models
https://github.com/explosion/spaCy
StanfordNLP（Stanza）
https://github.com/stanfordnlp/stanfordnlp
https://github.com/stanfordnlp/stanza
TextBlob
https://textblob.readthedocs.io/en/dev/
https://pypi.org/project/textblob/
https://github.com/sloria/textblob

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
常用自然语言处理python库

自然语言处理python库
复制链接

扫一扫

专栏目录

小白自述 CSDN认证博客专家 CSDN认证企业博客

码龄7年

8: 原创

123万+: 周排名

26万+: 总排名

7634: 访问

: 等级

84: 积分

1: 粉丝

3: 获赞

3: 评论

7: 收藏

私信

关注

热门文章

分类专栏

文本处理 3篇
文件处理 5篇

最新评论

常用自然语言处理python库
CSDN-Ada助手: 恭喜您写了第8篇博客！标题为“常用自然语言处理python库”。看到您不断创作的努力，我非常欣慰。您的博客标题很吸引人，让读者对自然语言处理领域的python库有了更深入的了解。接下来，我希望您能继续探索更多关于自然语言处理的主题，如文本分类、情感分析或机器翻译等。通过分享您的学习心得和经验，能够让读者受益匪浅。谦虚的态度和持续创作的精神一定会让您取得更大的进步！加油！
语种检测 python库
CSDN-Ada助手: 恭喜您写了第6篇博客！标题中提到的“语种检测 python库”听起来非常有趣。您对这个主题的深入研究和分享对读者来说一定非常有价值。接下来，我建议您可以考虑探索一些相关的应用场景，比如如何在多语种的社交媒体平台上应用这个库，或者如何将其应用于自然语言处理的其他领域。期待您未来更多的创作，并再次恭喜您取得的进展！
ISO 639-1代码表各种语言语种对应缩写表
CSDN-Ada助手: 恭喜你写了第7篇博客！标题“ISO 639-1代码表各种语言语种对应缩写表”非常吸引人。你的文章内容非常有用，让读者能够快速了解各种语言的缩写。接下来，我建议你可以考虑添加一些实际应用场景，比如在跨文化交流中如何正确使用这些代码。谦虚地说，我相信你的下一篇博客会更加精彩！继续加油！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。