统计自然语言处理梳理一：分词、命名实体识别、词性标注

最新推荐文章于 2024-08-07 07:15:00 发布

alihonglong

最新推荐文章于 2024-08-07 07:15:00 发布

阅读量1.4w

点赞数

分类专栏：自然语言处理文章标签：统计自然语言处理自然语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/alihonglong/article/details/52333471

版权

本文介绍了统计自然语言处理中的基础任务，包括自动分词、词性标注和命名实体识别。自动分词面临分词规范、歧义划分和未登录词等问题，常见方法有基于规则、统计和两者结合。词性标注是确定词的语法范畴，挑战在于汉语的特性。命名实体识别主要识别文本中的专有名词，统计方法如隐马尔可夫模型、最大熵模型和条件随机场等各有优劣。作者还提到了在公司名识别方面的应用经验。

摘要由CSDN通过智能技术生成

进行统计自然语言处理系统梳理，学习资料《统计自然语言处理.宗成庆》。

一、自动分词

词，词是最小的能够独立运用的语言单位。

自动分词问题由来。中文（还有日语、越南语、藏语等）的文本不像西方屈折语的文本，词与词之间没有空格之类的标注来显示指示词的边界，因此，自动分词成了文本处理的首要基础性工作。

汉语自动分词的基本问题。1，分词规范问题：一方面单字词与词素的界定，另一方面是词与短语的界定。2，歧义划分问题：交集型歧义，如“结合成”，可划分为“结合|成”或“结|合成”; 组合型歧义，如“起身”，可以分开“起|身”，也可以不分开。3，未登录词问题（已有的词表中没有或训练语料中没有）：新出现的普通词，命名实体（比“专有名词”的范围更大），领域词，其他专用名词。

汉语分词方法。可以粗略地分为三类：基于规则的方法（基于词表），基于统计的方法，二者相结合。

这块着重点：1，前向最长匹配原则；2，常用汉语分词软件。

二，词性标注

词性是词汇基本的语法属性，通常也称为词类。

词性标注是在给定句子中判定每个词的语法范畴，确定其词性并加以标注的过程。

最低0.47元/天解锁文章

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。