NLP-词性标注+动态规划实现

最新推荐文章于 2024-09-06 13:43:01 发布

Swayzzu

最新推荐文章于 2024-09-06 13:43:01 发布

阅读量656

点赞数 1

分类专栏： NLP 文章标签：机器学习深度学习自然语言处理算法动态规划

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Swayzzu/article/details/121403956

版权

NLP 专栏收录该内容

32 篇文章 2 订阅

订阅专栏

目录

4.维特比算法

①定义数组

②计算第一列分数

③循环计算后面的分数（举例）

④找最优解

一、计算

1.实现目标

给出一句话，输出每个词的词性

2.训练数据

类似于下面的数据，左边是句子中的每个词，右边是对应的词性，其中句号代表一句话结束。

3.计算原理

要求P(词性|句子)，根据贝叶斯定理，求P(句子|词性) * P(词性)即可

词性记作：z1, z2, z3, z4,......（共有N个词性）

句子记作：w1, w2, w3, w4......（共有T个单词）

因此求的是P(w1, w2, w3, w4...... | z1, z2, z3, z4,......) * P(z1, z2, z3, z4,......)

视为条件独立，使用bigram语言模型：

P(w1 | z1) * P(w2 | z2) * ..... * P(z1) * P(z2 | z1) * P(z3 | z2) * ......

取对数，因此最终需要求的是：

二、实现

对于上式，第一部分发射概率记作A，第二部分记作pi，第三部分状态转移概率记作B

1.训练数据

导入，并且把每个单词及对应的词性统计为一个词典，便于通过id就能找到单词及词性。

2.构建参数

根据公式，发射概率A的行和列分别是词性数、单词数；pi只有一行，是词性数；状态转移B的行和列均为词性数。对这三个参数进行初始化：

3.统计数据

计算概率需要首先统计每一个单词，每个标签的出现数量，然后除以总数即可得到概率：

4.维特比算法

假如我们对每一个单词的每一个词性都进行概率计算，那么时间复杂度是指数级的。也就是词性数量的N次方。于是我们通过维特比算法进行计算：

①定义数组

在这里，动态规划的核心是，计算出上一个词的所有词性的分数，选择最高的分数作为基础，计算下一个词的分数，以此类推。因此，需要定义两个数组：

一个存储计算出来的分数（每一列的分数都是基于上一列的最高分进行计算的）：这个数组是最关键的数组，需要确定好里面数据是什么：dp[ i ] [ j ]：第j个词性给到第i个词的时候的最好分数。这个分数是基于前一列的最大值进行计算的。

另一个数组存储分数所对应的位置。

②计算第一列分数

根据上面的公式，第一列分数不涉及状态转移概率。

③循环计算后面的分数（举例）

对于每一个单词，每一个词性，先给一个小的分数，便于更新。

循环计算举例：

计算第二个单词eat

已经有了第一个词dog的数据，对于dog这个词，noun给到dog时，分数是0.6，prep给到dog时，分数是0.1

计算noun：

分数 = 上一行的noun分数 + noun转移到noun的分数 + 根据noun发射单词"eat"的分数

假设是：0.6 + 0.2 + 0.1 = 0.9

分数比原先的-999大，进行更新

对分数的位置进行更新，此时是第0个noun得到的分数最大，于是在对应位置记录“0”

"noun"计算完毕。

同样的方式计算prep及verb的概率，假设verb得到的最终分数是1.5，比原来的分数大，则更新两个表：

代码如下：

④找最优解

dp数组中，最后一行，是我们最终的全局最优分数。选择最大的分数对应的下标。

这个下标对应到第二个数组的位置，这个位置包含的信息，就是上一列的最大值所在的位置。（见上面的计算方式）

反向循环记录最优索引即可得到最终结果。

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
NLP-词性标注+动态规划实现

目录一、计算1.实现目标2.训练数据3.计算原理二、实现1.训练数据2.构建参数3.统计数据4.维特比算法①定义数组②计算第一列分数③循环计算后面的分数（举例）④找最优解一、计算1.实现目标给出一句话，输出每个词的词性2.训练数据类似于下面的数据，左边是句子中的每个词，右边是对应的词性，其中句号代表一句话结束。3.计算原理要求P(词性|句子)，根据贝叶斯定理，求P(句子|词性) * P(词性)即可词性记作..
复制链接

扫一扫

专栏目录

Swayzzu CSDN认证博客专家 CSDN认证企业博客

码龄3年

103: 原创

30万+: 周排名

45万+: 总排名

12万+: 访问

: 等级

1143: 积分

29: 粉丝

60: 获赞

37: 评论

422: 收藏

私信

关注

热门文章

分类专栏

CV 18篇
NLP 32篇
知识图谱 1篇
机器学习基础 10篇
深度学习 26篇
数据结构笔记 7篇
opencv 3篇
MySQL 4篇
Linux 3篇

最新评论

PyTorch自建数据集+可视化结果
Swayzzu: 你调试一下，打断点到这个位置看看，意思是这个地方应该是一个可迭代的对象（比如list类型之类的），但发现这个对象是个None，没法迭代
PyTorch自建数据集+可视化结果
学习成长记: 我在进行数据集导入时，出现错误：TypeError Traceback (most recent call last) Cell In[7], line 1 ----> 1 train_dataset = InfrasoundDataset('dataset',256, 'train') 2 val_dataset = InfrasoundDataset('dataset',256, 'val') 3 test_dataset = InfrasoundDataset('dataset',256, 'test') Cell In[6], line 15, in InfrasoundDataset.__init__(self, root, resize, mode) 12 self.name2label[name] = len(self.name2label.keys()) 13 # print(self.name2label) 14 # 加载或创建CSV文件并存储数据 ---> 15 self.images, self.labels = self.load_csv('Raw_TIFs.csv') 17 # 取train, val, test数据集 18 if mode=='train': TypeError: cannot unpack non-iterable NoneType object。请问这个是为什么？
KBQA-Bert学习记录-CRF模型
Swayzzu: 建议调试检查下维度吧，看看是哪一行报的，然后断点打到那行，看看维度最后一个是不是10，代码预期是5
KBQA-Bert学习记录-CRF模型
qq_54412326: ValueError: expected last dimension of emissions is 5, got 10大佬，报错这个想问一下时什么问题呢
时间复杂度-主定理分析
狼堡你灰叔371: 虽然不太专业但是做题的话真是个小妙招给你点赞

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。