NLP结构化流程记录

最新推荐文章于 2022-07-13 17:05:20 发布

Mark_Aussie

最新推荐文章于 2022-07-13 17:05:20 发布

阅读量480

点赞数

分类专栏： nlp 文章标签：深度学习

原文链接：https://zhuanlan.zhihu.com/p/104235864

版权

nlp 专栏收录该内容

60 篇文章 3 订阅

订阅专栏

本文探讨了自然语言处理中的关键步骤，如句子分割、词性标注、词形还原、停止词识别，以及命名实体识别的详细过程。重点介绍了谷歌的依赖分析器和如何通过深度学习提升解析准确性。同时涵盖了共指解析和获取结构化数据的能力。

摘要由CSDN通过智能技术生成

1. 句子分割

2. 词汇标记化，把文档分割成句子，再把这个句子分成不同的单词或标记（标记化）。

3. 预测每个标记词词性

4。文本词形还原，找出句子中每个单词的最基本的形式或词条，词形还原通常是通过基于词性的词条形式的查找表来完成的，并且可能通过一些自定义规则来处理一些你从未见过的单词。

5. 识别停止词

6. 依赖分析，句子中的所有单词是如何相互关联的，除了识别每个单词的父词外，还可以预测两个词之间存在的关系类型，依赖解析也可以通过将单词输入机器学习模型并输出结果来工作；

可参考：Matthew Honnibal 的文章「Parsing English in 500 Lines of Python」，尽管在 2015 这种方法是标准的，但实际上已经过时了。在 2016，谷歌发布了一个新的依赖性分析器Parsey McParseface，

使用了一种新的深度学习方法并超越了以前的基准。一年后又发布了ParseySaurus 的模型。此外很多英语句子都是模棱两可的，难以解析的。

这种情况下，模型将根据该句子的解析版本进行猜测，但并不完美，有时该模型将导致令人尴尬的错误。

7. 寻找名词短语，组合词以表达意思。

8. 命名实体识别（NER），使用的是一个单词如何出现在句子中的上下文和一个统计模型来猜测单词代表的是哪种类型的名词。

一个好的 NER 系统可以通过上下文线索来区分「Brooklyn Decker」这个人名和「Brooklyn」这个位置。

标记的对象类型：人名，公司名称，地理位置（物理和政治），产品名称，日期与时间，金钱数量，事件名称。NER 可以很容易地从文本中获取结构化数据。

9. 共指解析

参考：

https://zhuanlan.zhihu.com/p/104235864

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Mark_Aussie CSDN认证博客专家 CSDN认证企业博客

码龄9年

227: 原创

12万+: 周排名

1万+: 总排名

41万+: 访问

: 等级

2806: 积分

211: 粉丝

326: 获赞

68: 评论

1410: 收藏

私信

关注

热门文章

分类专栏

nlp 60篇
Python 52篇
机器学习 47篇
AIOps 32篇
排序算法 9篇
C语言
JDK翻译 5篇
数据库 4篇

最新评论

Python Logging 的使用
北风之神c: 总结的很全面，写得赞，博主用心了。此国产日志 https://nb-log-doc.readthedocs.io/zh-cn/latest/articles/c1.html 使用原生 loggng封装，兼容性和替换性100%,只需要一行代码大幅简化logging的使用。 1、日志能根据级别能够自动变彩色。 1 2、print自动变彩色。 3、日志和print在pycahrm控制台的输出都自动可以点击跳转到文件和行号。 4、多进程日志切割安全，文件日志写入性能高。 5、入参简单，能一键自动记录到多种地方。 6、 nb_log 兼容包含loguru色彩模式,loguru只是nb_log的子集之一. 相比 loguru 有10胜。 pip install nb_log 。
python 常用方法记录
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性。
Log BERT 日志异常检测
qq_45834721: 问一下大家有复现出论文里面提到的效果吗
Log BERT 日志异常检测
lym4a1: 这个本来就是没到语义那一级，你还在做这方面研究吗？你对参数异常这块有什么想法吗
LSTM理解及梯度消失与爆炸
CSDN-Ada助手: 百度的paddlepadle库做的不错，不知道是否用过呢？

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。