5个NLP代码库

来源于:每个人都应该知道的5个NLP代码库
1. Spacy
spaCy 是Python中比较出名,专门用于自然语言处理的库。它有助于实现最先进的效率和敏捷性,并拥有活跃的开源组织积极贡献代码。
加分项:

  • 与所有主要的深度学习框架很好地结合,并预装了一些出色且有用的语言模型
  • 由于Cython支持,速度相对较快
    使用spaCy最适合做的事情
  1. 词性(POS)标注:这是给单词标记制定语法属性(例如名词,动词,形容词,副词等)过程。
  2. 实体识别:将文本中发现的命名实体标记到预定义实体类型。
  3. 依存分析:分配语法依存标签,描述各个标记(例如主题或客体)之间的关系。
  4. 文本分类:为整个文档或文档的一部分分配类别或标签。
  5. 句子边界检测(SBD):查找和分割单个句子。

2. NLTK
NLTK是目前可用的最优秀的NLP模型训练库之一。该库是NLP入门python库。它是NLP的初学者常用的库。它具有许多预先训练的模型和语料库,可帮助我们非常快速地分析事物。
加分项:内置支持数十种语料库和训练完备的模型
使用NLTK可以实现一下需求:
1. 推荐:可以基于相似性来推荐内容。
2. 情感分析:通过自然语言处理来衡量人们的观点倾向
3. Wordnet [1]支持:我们可以使用Synset 在WordNet中查找单词。因此可以访问许多单词的同音异义词,上位词,同义词,定义,词族等
4. 机器翻译:用于将源语言翻译成目标语言
3.Transformers
该Transformers库是开源,基于社区的信息库,使用和共享模型基于Transformer结构[2]如Bert[3],Roberta[4],GPT2 [5],XLNet [6],等等

该库提供自然语言理解(NLU)和自然语言生成(NLG)任务预训练模型下载。

加分项:超过32种采用100种以上语言的训练的预训练模型,以及TensorFlow 2.0和PyTorch之间的深度互操作性。最适合深度学习。
Transformers可以做到一下事情
1. 摘要生成:摘要是将文本/文章摘要为较短文本的任务。
2. 翻译:将文本从一种语言翻译成另一种语言的任务。
3. 文本生成:基于上下文,生成连贯的下文。
4. 抽取式问答:从给定问题的文本中提取答案的任务。

4. Gensim
Gensim是一个Python库,专门用于通过向量空间建模和主题建模工具包来识别两个文档之间的语义相似性
顺便说一下,它是“ Generate Similar”(Gensim)的缩写:)

优点:高水平的处理速度和可以处理大量文本。
Gensim适合处理的需求:
1. 分布式计算:它可以在计算机集群上运行隐语义分析和隐Dirichlet分配。(可以处理大量数据的原因)
2. 文档索引:将信息与文件或特定标签相关联的过程,以便以后可以轻松检索
3. 主题建模:自动聚类单词group和定义一组文档的相似表达式。
4. 相似性检索:处理文档存储库中相似信息的组织,存储,检索和评估(此处为文本信息)

5. Stanza
Stanza将许多准确而有效自然语言处理工具收集在一起,组成工具包。从原始文本到句法分析和实体识别,Stanza将最新的NLP模型引入语言处理中。

该工具包建立在PyTorch库的之上,并支持使用GPU和预训练的神经模型。

此外,Stanza包括一个CoreNLP Java包的Python接口,并从那里继承了附加功能。

优点:快速,准确,并且能够支持几种主要语言。适用于生产部署环境。
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值