自然语言处理(NLP)笔记第一章词典分词

唐风绸繆

已于 2024-05-06 21:35:45 修改

阅读量619

点赞数 12

分类专栏：自然语言处理文章标签：自然语言处理笔记人工智能 nlp

于 2024-05-06 21:17:21 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45738761/article/details/138508536

版权

自然语言处理专栏收录该内容

9 篇文章 0 订阅

订阅专栏

自然语言处理笔记

自然语言处理(NLP)笔记第一章词典分词-CSDN博客

自然语言处理笔记第二章二元语法与中文分词-CSDN博客

自然语言处理笔记第三章隐马尔科夫模型与序列标注-CSDN博客

自然语言处理第四章感知机分类与序列标注-CSDN博客

自然语言处理笔记第五章条件随机场与序列标注-CSDN博客

自然语言处理笔记第六章词性标注-CSDN博客

自然语言处理笔记第七章命名实体识别-CSDN博客

机器翻译综述-CSDN博客

领域词性标注-CSDN博客

两种流派：

基于规则的专家系统：针对需求设计规则死板不稳定

基于统计学的机器学习：通过构建语料库让计算机学习

语料库：分为中文分词语料库、词性标注语料库等等，实现一种功能就需要一种语料库

词典分词基本介绍：

词典分典

词的定义：具有独立意义的最小单位

词频：二八定律

词典：记录大量词的词库

Hanlp词典

切分算法：

1、完全切分---找出文本中的所有词，不是标准意义上的分词

从文本(长度为n)的第i个字开始（i初始=0）。匹配[i,i+1]一直到[i,n]。然后i++。直到i=n。问题：会重复匹配（如：出租车à出租，出租车）

2、正向最长匹配

最长匹配不是返回一个最长词，而是多个最长词

从文本(长度为n)的第i个字开始（i初始=0）。匹配[i,i+1]一直到[I,n]。选择其中最长的放到word_list待输出；第二轮匹配i从上一轮的最长词之后第一个字开始，找第二个最长词。如果没有匹配到任何一个词，word_list就加入当前的单个字作为这一轮的最长词。

3、逆向最长匹配

与正向相似，只是倒着来

但正向匹配和逆向匹配的结果未必相同

如：我一个人吃饭正向：逆向：

4、双向最长匹配

优先返回逆向的原因：统计学规律，逆向匹配正确率高

速度：正向逆向速度差不多；python比java慢

字典树（前缀树）

每个字符串末尾添加一个\0(散列值=0)，普通节点不需要分配内存标记颜色

从有限自动机DFA的角度看每个节点对应着一个状态（这个状态就是当前的前缀）

状态转移：向父节点询问该字符与子节点对应边（边上存储字符的整型值）的关系，若存在满足条件的边，则转移状态到子节点

首字散列其余二分的字典树

中文大多是二字词，因此第一次状态匹配的速度十分重要。

第一次匹配：创建一个长为 65536 的数组，将子节点按对应的字符整型值作为下标放入该数组即可。这样每次状态转移时，只需访问对应下标就行了。

前缀树的优点：

双数组字典树DAT

Base数组每个元素表示一个状态，check数组每个元素表示一个状态的前驱状态

每个字符串末尾添加一个\0(散列值=0)，普通节点不需要分配内存标记颜色

状态转移：

当状态s接受字符c转移到状态t时，双数组满足

base[s]+c：s状态+c（s的前缀加c）得到了t状态。t状态的前驱状态为s状态。

查询：（base[p]<0时，对应单词结尾）

最开始的状态b=0，待识别字符串为key。通过循环依次匹配key[i]和b，匹配成功则令当前状态b=本次匹配成功后的状态p。若在循环结束前p=-1则提前return跳出循环。

令（p=最终状态b的前缀+结尾状态\0）（注意，这里的p

和循环里面的p完全无关）。令n=base[p]即末尾节点的前缀。第二个if的第一个条件是状态转移的判定（此步是否有必要？）。第二个条件是判断末尾节点是不是单词结尾。

注意：该算法对于key[]串最后一个元素是不是/0有容忍性，有的话循环结束时不会记录（else中没有令b=p），没有的话后面会补上（，c=/0）（应该是这样吧...）；如果key[]中间就出现了/0的话，那么for循环到此为止，/0后面的就不管了。

AC自动机

速度优于字典树，原因：

实现方法：

Goto表：

其实就是前缀树

Output表：

Fail表：存储状态转移失败后应当转移到的节点

which? 节点状态为已匹配的字符串的最长后缀

例：节点7---his继续匹配，匹配失败后，节点3的状态---s，是his在表上的最长后缀；节点5---she继续匹配，匹配失败后，节点2的状态---he是she在表上的最长状态。

（双数组字典树DAT和AC自动机可以结合---ACDAT，提升性能）

准确率评测：

精度P：被判定为正样本里有多少真的是正样本

召回率R：所有正样本里有多少被判定为正样本

OOV：未登录词（out of vocabulary），新词

IV：“登录词”（in vocabulary），词典里有的词

定义F1值：

关注

12
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
自然语言处理(NLP)笔记第一章词典分词

例：节点7---his继续匹配，匹配失败后，节点3的状态---s，是his在表上的最长后缀；节点5---she继续匹配，匹配失败后，节点2的状态---he是she在表上的最长状态。通过循环依次匹配key[i]和b，匹配成功则令当前状态b=本次匹配成功后的状态p。状态转移：向父节点询问该字符与子节点对应边（边上存储字符的整型值）的关系，若存在满足条件的边，则转移状态到子节点。base[s]+c：s状态+c（s的前缀加c）得到了t状态。（p=最终状态b的前缀+结尾状态\0）（注意，这里的p。
复制链接

扫一扫

专栏目录

唐风绸繆 CSDN认证博客专家 CSDN认证企业博客

码龄5年

145: 原创

17万+: 周排名

2万+: 总排名

7万+: 访问

: 等级

2801: 积分

1472: 粉丝

1339: 获赞

33: 评论

1180: 收藏

私信

关注

热门文章

分类专栏

最新评论

信息安全笔记第三章网络防御手段
普通网友: 这篇文章真是一篇佳作!作者运用了生动有趣的语言,将枯燥的理论知识娓娓道来,让人如沐春风。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
信息安全笔记第一章信息安全概述
普通网友: 优质好文，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
基于流标特征的DdoS攻击检测技术
dj1213777: 你好，对这个试验很感兴趣，能否回复一下私信
数字图像处理第二章空域增强技术
普通网友: 阅读这篇博文真是一次愉快的体验！作者的文字真是动人心弦，语言精准而生动。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
数字图像处理第六章形态学图像处理
普通网友: 这篇文章是优质之作，内容充实，结构明晰，语言流畅且通俗易懂，适合广大读者阅读。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。