中文纠错——CRF+N-grams

最新推荐文章于 2021-10-30 22:04:01 发布

枯叶酿茶

最新推荐文章于 2021-10-30 22:04:01 发布

阅读量1.8k

点赞数 1

分类专栏： NLP 文章标签：自然语言处理

本文链接：https://blog.csdn.net/Laura_Luo/article/details/116461049

版权

本文介绍了中文纠错的两步任务，利用CRF进行错误标注，N-grams进行纠错。详细探讨了CRF的原理、实验应用及数据预处理，以及N-grams的原理和在实验中的应用。实验采用tri-grams作为向量特征空间，对CRF预测的错误文本进行纠错。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

中文纠错——CRF+N-grams

中文纠错的两步任务

这是我的web搜索课程的大作业之一，为了这个作业学习了CRF和N-grams的原理，记录以便以后参考。

中文纠错的两步任务

本实验采用CRF模型对文本句子进行错误标注，n-grams模型对错误文本句子进行纠错。

CRF： Conditional Random Field

1. CRF的原理

CRF的原理
条件随机场由图论发展而来，目前使用最广泛的是线性链条件随机场。
线性链条件随机场的定义如下：

其原理如下图所示：

某一刻的状态 $y_i$ 只与输入的观测序列和相邻的两个状态有关，如上图创建两个特征函数 $s_l,t_k$ ，由图论中的Hammersley-Clifford定理，可以得到：
在这里插入图片描述
其中

为归一化因子，特征函数 $s_l,t_k$ 为二值函数，函数值为0或1，满足特征条件时取值为1，否则为0； $μ_l,λ_k$ 为特征对应权值，其取值为任意值，当取值为正时，表示倾向于此特征，反之表示不倾向。在模型的训练当中，训练的参数为权重 $μ_l,λ_k$ 。

2. CRF在本实验的应用

可以见本实验的第一个任务看成中文词性标注任务，其中标注类别为2类——“C”和“W”。实验步骤如下：
（1）对数据中的句子序列进行原子切分，得到原子切分序列；
（2）对字进行标注；
（3）确定特征函数；
（4）训练CRF模型参数
其中，本实验采用的特征函数是
在这里插入图片描述
b表示bias， $w_i$ 表示第i个词。 $f_j$ 表示第j个标注序列的特征函数。设 $l_j$ 为一个序列的标注序列，s为输入的序列，那么此标注的分数为：

其条件概率：

3. 数据预处理

本实验中CRF模型训练的用到的数据集都经过了切分和字性标注的处理，句子被切分成一个个字，由出错序列和正确序列一一对比标注字的正误。句子序列的长度限制在5个字以上。但是产生的问题是，当正确序列与出错序列的长度不相同时，就不会标注字的正误，这种序列被跳过了，在实际问题中，无法解决赘余、缺字这样的拼写错误。

N-grams

1. N-grams的原理

N-grams将文本切分为长度等于N的字节片段（gram），统计所有gram的频度，按照一个阈值过滤形成关键gram表，作为文本的向量特征空间。N-grams假设第N个词的出现只与前面N-1个词相关，整句的概率就是各个词出现概率的乘积，例如当N=2时有：
$P(w_1,w_2,…,w_n) = \prod_{i=1}^{n}P( w_i |w_{i-1})$

最低0.47元/天解锁文章