NLP结构化流程记录

本文探讨了自然语言处理中的关键步骤,如句子分割、词性标注、词形还原、停止词识别,以及命名实体识别的详细过程。重点介绍了谷歌的依赖分析器和如何通过深度学习提升解析准确性。同时涵盖了共指解析和获取结构化数据的能力。
摘要由CSDN通过智能技术生成

1. 句子分割

2. 词汇标记化,把文档分割成句子,再把这个句子分成不同的单词或标记(标记化)。

3. 预测每个标记词词性

4。 文本词形还原,找出句子中每个单词的最基本的形式或词条,词形还原通常是通过基于词性的词条形式的查找表来完成的,并且可能通过一些自定义规则来处理一些你从未见过的单词。

5. 识别停止词

6. 依赖分析,句子中的所有单词是如何相互关联的,除了识别每个单词的父词外,还可以预测两个词之间存在的关系类型,依赖解析也可以通过将单词输入机器学习模型并输出结果来工作;

 可参考:Matthew Honnibal 的文章「Parsing English in 500 Lines of Python」,尽管在 2015 这种方法是标准的,但实际上已经过时了。在 2016,谷歌发布了一个新的依赖性分析器Parsey McParseface,

使用了一种新的深度学习方法并超越了以前的基准。一年后又发布了ParseySaurus 的模型。此外很多英语句子都是模棱两可的,难以解析的。

这种情况下,模型将根据该句子的解析版本进行猜测,但并不完美,有时该模型将导致令人尴尬的错误。

7. 寻找名词短语,组合词以表达意思。

8. 命名实体识别(NER),使用的是一个单词如何出现在句子中的上下文和一个统计模型来猜测单词代表的是哪种类型的名词。

一个好的 NER 系统可以通过上下文线索来区分「Brooklyn Decker」这个人名和「Brooklyn」这个位置。

标记的对象类型:人名,公司名称,地理位置(物理和政治),产品名称,日期与时间,金钱数量,事件名称。NER 可以很容易地从文本中获取结构化数据。

9. 共指解析

 

参考:

https://zhuanlan.zhihu.com/p/104235864

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值