Pytorch学习 -文本预处理-马尔可夫假设

最新推荐文章于 2024-01-28 14:34:02 发布

鱼之天空

最新推荐文章于 2024-01-28 14:34:02 发布

阅读量687

点赞数

分类专栏： pytorch学习文章标签： pytorch

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/MHeartWGO/article/details/104313306

版权

pytorch学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

伯禹学习平台学习

'[^a-z]+' #正则表达式

马尔科夫假设是指一个词的出现只与前面n个词相关，即n阶马尔可夫链（Markov chain of order n）。

如果n=1，那么有 $P(w3|w1,w2)=P(w3|w2)。$

$P(w_{1},w_{2},..,,w_{T})=\prod_{t=1}^{T}P(w_{t}|w_{t-(n-1)},...,w_{n-1}).$

当n分别为1、2和3时，我们将其分别称作一元语法（unigram）、二元语法（bigram）和三元语法（trigram）。例如，长度为4的序列w1,w2,w3,w4在一元语法、二元语法和三元语法中的概率分别为

P(w1,w2,w3,w4)=P(w1)P(w2)P(w3)P(w4),

P(w1,w2,w3,w4)=P(w1)P(w2∣w1)P(w3∣w2)P(w4∣w3),

P(w1,w2,w3,w4)=P(w1)P(w2∣w1)P(w3∣w1,w2)P(w4∣w2,w3).

当n较小时，n元语法往往并不准确。例如，在一元语法中，由三个词组成的句子“你走先”和“你先走”的概率是一样的。然而，当n较大时，n元语法需要计算并存储大量的词频和多词相邻频率。

齐夫定律：单词排名与单词词频排名成反比？

在自然语言的语料库里，一个单词出现的频率与它在频率表里的排名成反比。所以，频率最高的单词出现的频率大约是出现频率第二位的单词的2倍，而出现频率第二位的单词则是出现频率第四位的单词的2倍。这个定律被作为任何与幂定律概率分布有关的事物的参考。(来自百度百科)

马尔可夫假设在自然语言处理中会存在的问题：

1 参数空间问题

2 数据稀疏问题

在训练中我们需要每次随机读取小批量样本和标签。时序数据的一个样本通常包含连续的字符。假设时间步数为5，样本序列为5个字符，即“想”“要”“有”“直”“升”。该样本的标签序列为这些字符分别在训练集中的下一个字符，即“要”“有”“直”“升”“机”，即X=“想要有直升”，Y=“要有直升机”。

随机采样：其中批量大小`batch_size`是每个小批量的样本数，`num_steps`是每个样本所包含的时间步数。
在随机采样中，每个样本是原始序列上任意截取的一段序列，相邻的两个随机小批量在原始序列上的位置不一定相毗邻。

在相邻采样中，相邻的两个随机小批量在原始序列上的位置相毗邻。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
Pytorch学习 -文本预处理-马尔可夫假设

伯禹学习平台学习'[^a-z]+' #正则表达式马尔科夫假设是指一个词的出现只与前面n个词相关，即n阶马尔可夫链（Markov chain of ordern）。如果n=1，那么有当n分别为1、2和3时，我们将其分别称作一元语法（unigram）、二元语法（bigram）和三元语法（trigram）。例如，长度为4的序列w1,w2,w3,w4在一元语法、二元语法和三元语法中的...
复制链接

扫一扫

专栏目录

鱼之天空 CSDN认证博客专家 CSDN认证企业博客

码龄7年

117: 原创

5万+: 周排名

34万+: 总排名

18万+: 访问

: 等级

2433: 积分

53: 粉丝

140: 获赞

69: 评论

519: 收藏

私信

关注

热门文章

分类专栏

区块链 4篇
分布式 1篇
数据分析 1篇
机器学习 2篇
深度学习笔记 16篇
操作系统 9篇
SDN 4篇
pytorch学习 4篇
计蒜客 3篇
hdu 18篇
CCF 1篇
Leetcode 5篇
牛客网 9篇
剑指offer 4篇
全排序 3篇
C++ 13篇
二叉树 4篇
最小生成树 1篇
链表 1篇
安卓 6篇
java 2篇
数据结构 15篇
python菜鸟 14篇
深度学习 13篇

最新评论

二元一次方程
西农小陈: 抄的吧应该
Tensorflow油耗预测实战
御风而行_652: 感谢文心一言给的提示，虽然最后还是自己猜出来的。（哭笑不得）
Tensorflow油耗预测实战
御风而行_652: 好的，我搞明白了。那个model.build(input_shape=(None, 9))在新版本（）里面不用也不应该人去写到自己的代码里面，模型第一次前向计算的时候就会自动调用这个，然后第一次计算得出结果之后，才能调用model.summary()，这个时候那个打出来的表就是正常的。
Tensorflow油耗预测实战
御风而行_652: 这个class Network(keras.Model):里面的内容不对吧，我运行到后面的model.build(input_shape=(None, 9))，报错了： UserWarning: `build()` was called on layer 'network_2', however the layer does not have a `build()` method implemented and it looks like it has unbuilt state. This will cause the layer to be marked as built, despite not being actually built, which may cause failures down the line. Make sure to implement a proper `build()` method. 这个怎么回事啊？
拾遗-卷积神经网络关于通道数改变
笃谷: 如果输入channel是128，输出是256，那就是用256个3*3*128的channel吗？

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。