总结一下:2021 年自然语言处理NLP的Python(好)库

自然语言处理 (NLP)

是一种技术向导,是数据科学的一部分,它教计算机理解人类语言。 它涉及分析数据以提取有意义的见解。在其众多用途中,主要用途包括文本挖掘、文本分类、文本和情感分析以及语音生成和识别。

今天,我们探索七个顶级 Python NLP 库。使用这些库将使人们能够构建端到端的 NLP 解决方案 —从获取模型数据到呈现结果。 此外,还将了解相关概念,例如标记化、词干提取、语义推理等。

自然语言工具包 (NLTK) 自然语言工具包或 NLTK 是构建 Python 程序最流行的平台之一。 它提供了一套开源 Python 模块、教程和数据集,以支持 NLP 的研究和开发。超过 50 个语料库和 词汇资源是 NLTK 接口的接收者。这些包括:

  • 一套用于分类的文本处理库
  • 代币化
  • 词干
  • 标记
  • 解析
  • 语义推理
  • 工业级 NLP 库的包装器
  • 词网

它适用于各类程序员,学生、教育工作者、工程师、研究人员和行业专业人士。NLTK 可在 Python 3.6 及更高版本中访问,并且适用于 Windows、Mac OS X 和 Linux。

在此处阅读有关 NLTK 的兼容性和功能的更多信息。

spaCy

spaCy 是为 Python 和 Cython 中的高级 NLP 构建的。该商业开源软件在 MIT 许可下发布,支持 PyTorch 和 TensorFlow 中的自定义模型。

spaCy 支持 60 多种语言,并针对不同的语言和任务训练了管道。其功能包括以下组件:

  • 命名实体识别
  • 词性标注
  • 依赖解析
  • 句子切分
  • 文字分类
  • 词形还原
  • 形态分析
  • 实体链接</
  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Python有多个流行的自然语言处理,其中最常用的是NLTK和spaCy。这里我以spaCy为例,演示如何将一段话根据名词或者动词进行划分,转变为JSON格式。 首先,你需要安装spaCy并下载相应的语言模型,可以通过以下命令完成: ``` pip install spacy python -m spacy download en_core_web_sm ``` 接下来,你需要导入spaCy并加载语言模型: ```python import spacy nlp = spacy.load('en_core_web_sm') ``` 然后,你可以使用`nlp`对象对一段话进行处理,得到一个`Doc`对象。`Doc`对象表示一段文本的处理结果,其中包含了每个单词的各种属性,如词性、依存关系等。 ```python doc = nlp('I love to play soccer with my friends on weekends.') ``` 接下来,你可以遍历`Doc`对象中的每个单词,找出其中的名词和动词,并将它们保存到一个Python字典中。可以使用以下代码实现: ```python data = { 'nouns': [], 'verbs': [] } for token in doc: if token.pos_ == 'NOUN': data['nouns'].append(token.text) elif token.pos_ == 'VERB': data['verbs'].append(token.text) ``` 在上面的代码中,我们遍历了`doc`中的每个单词,如果单词的词性为名词,就将其添加到`data['nouns']`列表中;如果单词的词性为动词,就将其添加到`data['verbs']`列表中。 最后,你可以使用Python的JSON将`data`字典转换为JSON格式的字符串,并将其写入文件中。可以使用以下代码实现: ```python import json json_str = json.dumps(data, ensure_ascii=False) with open('data.json', 'w', encoding='utf-8') as f: f.write(json_str) ``` 在上面的代码中,我们使用Python的JSON将`data`字典转换为JSON格式的字符串,并将其写入文件中。 总结一下,将一段话根据名词或者动词进行划分,转变为JSON格式的大致流程如下: 1. 导入spaCy并加载语言模型; 2. 使用`nlp`对象对一段话进行处理,得到一个`Doc`对象; 3. 遍历`Doc`对象中的每个单词,找出其中的名词和动词,并将它们保存到一个Python字典中; 4. 使用Python的JSON将字典转换为JSON格式的字符串,并将其写入文件中。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值