NLP自然语言处理基础技术工具 汇总

 

目前,有很多开源或开放的自然语言处理工具可以供我们使用,可以方便地解决很多NLP的基础任务,例如,分词、词性标注、词干化、命名实体识别、名词短语提取等等。

汇总起来方便比较,择优而用。

目录

1. HanLP

2. SpaCy

3. FudanNLP

4. Jieba 结巴

5. SnowNLP

6. PkuSeg

7. THULAC


1. HanLP

提供了中文依存句法分析功能。支持多种自然语言处理基本功能。

Github 地址:https://github.com/hankcs/pyhanlp

2. SpaCy

快速的工业级自然语言处理工具。 目前不支持中文。

支持多种自然语言处理基本功能。

Gihub 地址:https://github.com/explosion/spaCy

官网:https://spacy.io/

3. FudanNLP

复旦大学自然语言处理实验室开发的中文自然语言处理工具包。支持多种自然语言处理基本功能。

Github 地址:https://github.com/FudanNLP/fnlp

4. Jieba 结巴

支持中文分词、关键词抽取

Github 地址:https://github.com/fxsjy/jieba

5. SnowNLP

SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和TextBlob不同的是,这里没有用NLTK,所有的算法都是自己实现的,并且自带了一些训练好的字典。注意本程序都是处理的unicode编码,所以使用时请自行decode成unicode。

Github 地址:https://github.com/isnowfy/snownlp

6. PkuSeg

致力于为多领域的中文分词。目前支持了新闻领域,网络领域,医药领域,旅游领域,以及混合领域的分词预训练模型。
支持用户自训练模型。支持用户使用全新的标注数据进行训练。
支持词性标注。

Github 地址:https://github.com/lancopku/pkuseg-python

7. THULAC

具有中文分词和词性标注功能。

Github 地址:https://github.com/thunlp/THULAC-Python

 

 


————————————————
不断补充中...

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值