自然语言处理(第9课词语切分与词性标注)

komjay

已于 2023-11-16 21:24:35 修改

阅读量423

点赞数

分类专栏： NLP 文章标签：自然语言处理人工智能

于 2023-11-16 19:39:05 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/komjay/article/details/134446701

版权

NLP 专栏收录该内容

18 篇文章 8 订阅

订阅专栏

一、学习目标

1.了解汉语分词的要点和汉语分词方法

2.学习命名实体识别的一些规则

3.了解子词压缩和词性标注的思想

二、分词和词性标注任务概述

1.分词的重要性：

在本章中，我们主要关注中文的分词任务。

2.词性标注的重要性：

在中文NLP任务中，在模型处理的数据层面，基于词建立的模型性能优于以字和子词建立的模型。

在具体任务中，词性在文本分类、情感分析、自动文摘等任务中具有重要的作用。

三、汉语分词要点

1.汉语分词的问题：

（1）什么是词？

对于什么是词，我们中国人都不太好区分，所以这也大大加深分词的难度。

（2）交集型歧义。即一个句子中相邻的字可以相互组合成词。如：

为了定义这种现象，我们用交集串来设定：

（3）组合型歧义

（4）未登录词/集外词的出现：

2.汉语分词的原则

(1)基本原则:比较硬性、理论上更优

(2)辅助原则:操作性原则，富于弹性，这才是实际分词的原则

总结而言，在辅助原则中，合并原则更主要，“能合并就合并”，除非合并后词太过冗长。

3.分词效果的评判标准

例子如下：

四、汉语分词方法

1.基于词典的切分方法

例子如下：

优缺点分析：

2.基于语言模型的分词方法

这个思想在前面第4课讲过。其优缺点有：

3.由字构词的分词方法（条件随机场）

对应到条件随机场（CRFs）中：

将CRFs写成数学模型：

画成图示，就是：

接下来计算给定X如何计算出Y是什么：

大括号中间的两部分可以进行合并，最后可以得到我们CRFs的最后计算出条件概率：

其实很明显看出，CRFs和HMM（隐马尔科夫模型）很像，特别是二者都有转移概率和标记概率。但二者要解决的问题是不太一样的，CRFs是得到每个点的标签，HMM是得到最大可能的X序列：

有了条件概率后，我们就可以得到我们的损失函数，对其正则化后，使用梯度下降法就可以迭代出我们的结果：

整体的算法流程如下：

与HMM一样，还有一个解码问题，对于给定X=x1x2...xT，我们训练好的模型应该如何得到最优的标记序列。要记住，模型并不能一步到位计算出T个x的标记序列，而是一个一个获得。于是还是要用Viterbi搜索法：

其思想就是：第一步计算出x1前3大概率的标记，再计算x1在这三种标记下，x2的所有标记，保留x2前3大概率的标记...直至最后。

4.神经网络方法

具体框架：

五、命名实体识别（NER）

1.什么是命名实体

2.如何进行命名实体识别

3.一些校正规则

4.NER的主要问题：

（1）过于依赖训练样本，鲁棒性太差。（生词识别）

（2）训练样本太少，主要集中于新闻领域。（领域差异）

六、子词压缩

1.现有字词存在的问题：

2.子词压缩的基本思路：

3.BPE算法的基本思想：

一个例子：“/”是人工的划分结果，机器一开始把字都按空格分开：

如果语料库足够大，实际上，可以找到更多的词。

七、词性标注

1.面临的问题

在中文中的问题更多：

2.词性标注集的原则

3.标注方法

八、本章小结

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
自然语言处理(第9课词语切分与词性标注)

在本章中，我们主要关注中文的分词任务。（1）过于依赖训练样本，鲁棒性太差。（生词识别）（2）训练样本太少，主要集中于新闻领域。（领域差异）
复制链接

扫一扫

专栏目录

komjay CSDN认证博客专家 CSDN认证企业博客

码龄5年

54: 原创

117万+: 周排名

5万+: 总排名

2万+: 访问

: 等级

779: 积分

188: 粉丝

236: 获赞

20: 评论

327: 收藏

私信

关注

热门文章

分类专栏

最新评论

第三章混合推荐系统和推荐系统评价标准
CSDN-Ada助手: Python入门技能树或许可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
算法中的最优化方法与实现（第2课线性规划）
CSDN-Ada助手: 恭喜作者继续分享关于算法最优化方法与实现的知识，这对于学习算法的读者来说是非常宝贵的资源。希望作者在未来的创作中能够深入探讨一些实际案例，结合具体的应用场景来解释算法的实现过程，这样读者们会更容易理解和应用所学到的知识。期待作者的下一篇文章！
自然语言处理(第17课文本分类和聚类)
eeet9: 作者您好，您也是国科大学生吗
机器学习（第2章贝叶斯理论与应用）
CSDN-Ada助手: 非常感谢您分享这篇关于机器学习中贝叶斯理论与应用的博客！您的持续创作让我们受益良多。希望您能继续深入探讨机器学习领域的其他重要理论和应用，比如深度学习或者神经网络等，这些内容也将对我们有很大的帮助。期待您的下一篇精彩内容！
自然语言处理(第3课形式语言与自动机)
CSDN-Ada助手: 非常感谢作者的辛勤劳动，第10篇博客内容丰富，尤其是关于自然语言处理中形式语言与自动机的讲解让我受益匪浅。希望作者能够继续坚持创作，不断分享自己的学习心得和见解。下一步建议可以尝试结合实际案例或者应用场景，让读者更加直观地理解相关概念。期待作者更多精彩的文章，谢谢！

大家在看

文心一言小程序在内容创作方面的独特优势

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。