【NLP篇-分词】分词的几种方法综述

最新推荐文章于 2024-05-18 00:11:01 发布

塵世星空

最新推荐文章于 2024-05-18 00:11:01 发布

阅读量3k

点赞数 1

分类专栏：深度学习-NLP

本文链接：https://blog.csdn.net/chenshi_2753/article/details/84288341

版权

深度学习-NLP 专栏收录该内容

3 篇文章 1 订阅

订阅专栏

第一部分：分词的方法概述

基于词表: 正向最大匹配法、逆向最大匹配法
基于统计： 基于N-gram语言模型的分词方法
基于序列标注: 基于HMM/CRF/DeepLearning的端到端的分词方法

第二部分：方法简要说明

正向最大匹配法：
逆行向最大匹配法：
这种基于词表的方法，前提是有一个已经分的较好的词表，然后匹配。正向与逆向只是匹配的方式不同而已。这种基于词表的方法，前提是有一个已经分的较好的词表，然后匹配。正向与逆向只是匹配的方式不同而已。详细见：百科
N-gram语言模型分词
随机变量S是一个汉字的序列，W是S上所有可能的切分路径。求解使条件概率P(W|S)最大的切分路径W*。
$W * = a r g m a x P (W ∣ S)$
根据贝叶斯公式：
$argmax\frac{P(W)P(W|S))}{P(S))}$
其中，P(W|S)为恒定的值1.P(S)为归一化因子。所以求P(W)即可。
基于HMM的分词
分词问题就是对句子中的每个字打标注，标注要么是一个词的开始（B），要么是一个词的中间位置（M），要么是一个词的结束位置（E），还有单个字的词，用S表示。例如：

我	喜	欢	在	黑	龙	江
S	B	E	S	B	M	E

做简单的描述：
设观察集合为： $\left \{ { o_{1}, o_{2},o_{3}, ... ,o_{k} }\right \}$
状态集合为： $S=\left \{ { s_{1}, s_{2},s_{3},..., s_{k} }\right \}$
当输入观察序列为： $X = { x_{1}, x_{2},x_{3}, ... ,x_{n};x_{i} ∈O }$
得到对应的状态序列： $Y= { y_{1}, y_{2}, y_{3}, ... ,y_{n};y_{i}∈S }$

基于HMM的分词方法：属于由字构词的分词方法，由字构词的分词方法思想并不复杂，它是将分词问题转化为字的分类问题（序列标注问题）。从某些层面讲，由字构词的方法并不依赖于事先编制好的词表，但仍然需要分好词的训练语料。
在这里插入图片描述

基于CRF的分词
HMM是生成式模型，而CRF是判别式模型，CRF通过定义条件概率p(Y|X)来描述模型。基于CRF的分词的模型的求解方法和传统ML算法类似，给定feature（字级别的各种信息）输出lable（词位）
$\sum_{j=1}^ {m} \sum_{i=1}^{m}{\lambda i}{f_{j}}(s,i,l_{i},l_{i-1})$
解释：
分词所使用的是Linear-CRF，它由一组特征函数组成，包括权重λ和特征函数f，特征函数f的输入是整个句子s、当前 $pos_{i}$ 、前一个词位 $l_{i-1}$ ,当前词位 $l_{i}$ 。
CRF的分词原理：
CRF把分词当做成字的词位的分类问题，通常定义字的词位信息如下：

词首，常用B表示；
词中，常用M表示；
词尾，常用E表示；
单子词，常用S表示。

备：和HMM做法类似。

比较：

类型	CRF	vs	基于词表
速度上	周期长，计算量大		高效
歧义词/未登录词	较好。考虑词出现的频率+上下文语境信息

类型	CRF	vs	HMM
上下文	可以		其输出独立性假设，导致其不能考虑上下文的特征，限制了特征的选择
局部的最优值	最大熵隐马模型则解决了隐马的无上下文的问题，可以任意选择特征，但由于其在每一节点都要进行归一化，只能找到局部最优解		其并不在每一个节点进行归一化，而是所有特征进行全局归一化，因此可以求得全局的最优值

基于深度学习的端到端的分词方法

在这里插入图片描述
解释：
输入层为wordembedding，经过双向LSTM网络编码，输出层是一个CRF层，经过LSTM网络输出的实际上是当前位置对于各词性的得分，CRF是对词性得分加上前一位置的词性概率转移的约束，其好处是引入一些语法规则的先验信息。
数学公式表示为：
$\sum_{i=0}^{n}A_{y_{i},y_{i-1}} + \sum_{i-1}^{n}P_{i,y_{i}}$
其中，A是词性的转移矩阵，P是BiLSTM网络的判别得分。
$\frac{e^{s(X,y)}}{\sum_{y\subset y_{x}}^{A}e^{s(X,y)}}$

塵世星空

关注

1
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
【NLP篇-分词】分词的几种方法综述

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Ma...
复制链接

扫一扫