![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
自然语言处理
文章平均质量分 63
wafq
这个作者很懒,什么都没留下…
展开
-
自然语言处理笔记03 -- HMM
HMM模型介绍 由隐状态序列,生成可观测状态的过程。 两个基本假设: 第t个隐状态只和前一时刻的t-1隐状态相关,与其他时刻的隐状态无关。 在任意时刻t的观测值只依赖于当前时刻的隐状态值,和其他时刻的隐状态无关。 HMM模型参数 转移概率:t时刻的隐状态qi转移到t+1时刻的隐状态qj的概率。 发射概率:t时刻由隐状态qj生成观测状态vk的结果。 初始隐状态概率:自然语言序列中第一个字o1的实体标记是qi的概率。 HMM模型的学习算法 有了最佳参数,如何使用参数解决序列标注?(前向传播)原创 2021-06-06 21:57:25 · 159 阅读 · 1 评论 -
自然语言处理笔记02 -- Bert模型解读和实战
位置嵌入的含义 位置嵌入不仅仅是反应了时间序列信息,而且从直观上来看,将位置嵌入和其转置做点积,其结果如下。 即距离较近的字之间的相关性要大于距离较远字。所以其建立了时间维度上 的关联性。 语言模型的定义和BERT如何预训练语言模型 语言模型定义:什么是语言模型, 其实用一个公式就可以表示 ????(????1,…,????????) , 假设我们有一句话, ????1到???????? 是这句话里的 ???? 个字, 而语言模型就是求的是这句话出现的概率是多少. 预训练方式1:Masked LM 就原创 2021-06-05 21:42:29 · 565 阅读 · 0 评论 -
自然语言处理笔记01 -- transformer模型
预训练语言模型 – ENCODER 位置编码 使得每个句子,在其每个字的字嵌入维度上,根据维度的不同,将相邻的奇数和偶数维度组合,使得每个组合的编码周期逐渐增大,这样的纹理特性可以使模型学习到句子的时序信息。 自注意力机制 得到Q,K,V并切分成多头:首先将上一步得到的每个句子的位置嵌入和最初每个句子的字嵌入相加,然后将得到的结果分别做三个线性变换(变换矩阵都为字嵌入大小的方阵),得到Q,K,V。然后将每个变换的结果均按字嵌入维度切分,加入新的维度。 用切分后的Q和切分后K的转置相乘,得到结果的某行为原创 2021-06-05 18:57:33 · 171 阅读 · 0 评论