语言模型涉及的相关概念

最新推荐文章于 2024-06-19 14:22:57 发布

fkyyly

最新推荐文章于 2024-06-19 14:22:57 发布

阅读量1.6k

点赞数

分类专栏：自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fkyyly/article/details/79965797

版权

自然语言处理专栏收录该内容

11 篇文章 1 订阅

订阅专栏

1 什么是语言模型：

语言模型其实就是看一句话是不是正常人说出来的（判断自然语言上下文相关的特性）。在很多NLP任务中都会用到，比如机器翻译、语音识别得到若干候选之后。
语言模型形式化的描述就是给定一个字符串，看它是自然语言的概率 P(w1,w2,…,wt)。

W依次表示这句话中的各个词。有个很简单的推论

常用的语言模型都是在近似地求比如 n-gram 模型就是用 P(wt|wt−n+1,…,wt−1)

近似表示。

2 涉及的相关概念

2.1马尔科夫假设

假设一个词wi在某个位置出现的概率只与它前面的一个词wi−1有关, 这就是马尔可夫假设.

基于此假设, 得到

2.2n-gram model

上式对应的统计语言模型就是bi-gram model, 二元模型.类似地, 假设一个词wi在某个位置出现的概率只与它前面的两个词wi−1,wi−2有关, 那么就得到了三元模型.

2.3词袋模型 Bag of words.

对于一个文本，忽略其词法, 语法, 语义, 仅将其看做是一个词的集合, 文本中每个词的出现都是独立的, 那么就得到了词袋模型. 一个语料库由若干文本组成, 先计算出语料库的词袋, 然后就可以用词向量来表示每个文本.

2.4词向量

2.4.1 one hot在特征提取上属于词袋模型（bag of words）。

关于如何使用one-hot抽取文本特征向量我们通过以下例子来说明。假设我们的语料库中有三段话：

　　　　我爱中国

　　　　爸爸妈妈爱我

　　　　爸爸妈妈爱中国

我们首先对预料库分离并获取其中所有的词，然后对每个此进行编号：

　　　　1 我； 2 爱； 3 爸爸； 4 妈妈；5 中国

然后使用one hot对每段话提取特征向量：

　；；

因此我们得到了最终的特征向量为

　　　　我爱中国　->　　　1，1，0，0，1

　　　　爸爸妈妈爱我　　->　　1，1，1，1，0

　　　　爸爸妈妈爱中国　　->　　0，1，1，1，1

优点：一是解决了分类器不好处理离散数据的问题，二是在一定程度上也起到了扩充特征的作用（上面样本特征数从3扩展到了9）

缺点：在文本特征表示上有些缺点就非常突出了。首先，它是一个词袋模型，不考虑词与词之间的顺序（文本中词的顺序信息也是很重要的）；其次，它假设词与词相互独立（在大多数情况下，词与词是相互影响的）；最后，它得到的特征是离散稀疏的。

https://www.cnblogs.com/lianyingteng/p/7755545.html

2.4.2 distributed representation

对词典中的每一个词语都用固定长度的向量来表示, 不同于one-hot, 它形如

在word2vec中, 这个向量的维度是自定义的, 默认是100维

对词向量的介绍请看https://blog.csdn.net/fkyyly/article/details/79011789

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
语言模型涉及的相关概念

1 什么是语言模型：语言模型其实就是看一句话是不是正常人说出来的（判断自然语言上下文相关的特性）。在很多NLP任务中都会用到，比如机器翻译、语音识别得到若干候选之后。语言模型形式化的描述就是给定一个字符串，看它是自然语言的概率 P(w1,w2,…,wt)。W依次表示这句话中的各个词。有个很简单的推论常用的语言模型都是在近似地求比如 n-gram 模型就是用 P(wt|wt−n+1,…,wt−1)...
复制链接

扫一扫

专栏目录

fkyyly CSDN认证博客专家 CSDN认证企业博客

码龄14年

118: 原创

3万+: 周排名

202万+: 总排名

65万+: 访问

: 等级

6872: 积分

174: 粉丝

357: 获赞

99: 评论

947: 收藏

私信

关注

热门文章

分类专栏

最新评论

数据结构算法题/数组中两个数相减（前面减后面）的最大值
jayvee_: 后面减前面 [code=csharp] func getMax(arr []int) int { maxDiff := arr[1] - arr[0] minElem := min(arr[0], arr[1]) for i := 2; i < len(arr); i++ { diff := arr[i] - minElem if diff > maxDiff { maxDiff = diff } minElem = min(minElem, arr[i]) } return maxDiff } [/code]
IEEE免费论文下载
微电子学与固体电子学-俞驰: 新增了文献求助论坛。也给了用户名和密码，等几个小时会有人发给你的
Self-Attention概念详解
c_daofeng: WQ = K.dot(x, self.kernel[0]) dot（）表示的是矩阵的乘法，不是点乘。
Self-Attention概念详解
信管小白: 请问你找到原因了没有？我也出现这样的问题了
对偶问题
aabbcc__1: 怎么今天再来看图就没了

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。