自然语言处理 -- NLP作业 2 ：序列标注、命名实体识别

最新推荐文章于 2022-12-13 21:17:04 发布

啦啦啦___123

最新推荐文章于 2022-12-13 21:17:04 发布

阅读量1.5k

点赞数 1

文章标签： python 自然语言处理 nlp crf bilstm

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hhr603894090/article/details/109465180

版权

本文介绍了命名实体识别的概念，详细阐述了Bi-LSTM和CRF在处理这一任务中的作用。Bi-LSTM能学习长期依赖信息，而CRF则通过条件随机场来优化序列标注。此外，提供了训练数据的格式说明和相关代码资源。

摘要由CSDN通过智能技术生成

目录

命名实体识别

CRF条件随机场

命名实体识别

说到命名实体抽取，先要了解一下基于字标注的中文分词。比如一句话

"我爱北京天安门”。

分词的结果可以是

“我/爱/北京/天安门”。

那什么是基于字标注呢？

“我/O 爱/O 北/B 京/I 天/B 安/M 门/I”。

就是这样，给每个字都进行一个标注。我们可以发现这句话中字的标注一共有四种。他们分别代表的意义如下。

B | 词首 M | 词中 I | 词尾 O | 单字

B 表示一个词的开始，I 表示一个词的结尾，M 表示词中间的字。如果这个词只有一个字的话，用 O 表示。

教程：

零基础入门--中文命名实体识别

Bi-LSTM + CRF

Long ShortTerm 网络——一般就叫做LSTM——是一种RNN特殊的类型，可以学习长期依赖信息。当然，LSTM和基线RNN并没有特别大的结构不同，但是它们用了不同的函数来计算隐状态。LSTM的“记忆”我们叫做细胞/cells，你可以直接把它们想做黑盒，这个黑盒的输入为前状态和当前输入。这些“细胞”会决定哪些之前的信息和状态需要保留/记住，而哪些要被抹去。实际的应用中发现，这种方式可以有效地保存很长时间之前的关联信息。

LSTM有通过精心设计的称作为“门”的结构来去除或者增加信息到细胞状态的能力。门是一种让信息选择式通过的方法。他们包含一个sigmoid神经网络层和一个pointwise乘法的非线性操作。

如此，0代表“不许任何量通过”，1就指“允许任意量通过”！从而使得网络就能了解哪些数据是需要遗忘，哪些数据是需要保存。

教程：

如何从RNN起步，一步一步通俗理解LSTM

利用pytorch简单实现LSTM

最低0.47元/天解锁文章

啦啦啦___123

关注

1
点赞
踩
19

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。