前言
文本处理一般包括词性标注,句法分析,关键词提取,文本分类,情感分析等等,这是针对中
文的,如果是对于英文来说,只需要基本的tokenize。本文为大家提供了以下这些工具包。我整理了Python的相关学习视频及学习路线图。
需要资料的,私信【学习】获取更多资料
1.Jieba
【结巴中文分词】做最好的 Python 中文分词组件
其功能包括支持三种分词模式(精确模式、全模式、搜索引擎模式),支持繁体分词,支持自定义词典等。
2.NLTK
【NLTK】一个构建Python程序以使用人类语言数据的领先平台,被称为“使用Python进行教学和计算语言学工作的绝佳工具”,以及“用自然语言进行游戏的神奇图书馆”。
3.TextBlob
【TextBlob】是一个用于处理文本数据的Python(2和3)库。它为潜入常见的自然语言处理(NLP)任务提供了一个简单的API,例如词性标注,名词短语提取,情感分析,分类,翻译等。
4.MBSP for Python
【MBSP】是一个文本分析系统,基于CLiPS和ILK开发的基于TiMBL和MBT内存的学习应用程序。它提供了用于标记化和句子分裂,词性标注,分块,词形还原,关系查找和介词短语附件的工具。