pytorch-learning-01

最新推荐文章于 2024-09-08 15:52:11 发布

leonhoou

最新推荐文章于 2024-09-08 15:52:11 发布

阅读量280

点赞数

分类专栏： MachineLearning 文章标签：机器学习算法

本文链接：https://blog.csdn.net/hliyang/article/details/104281406

版权

5 篇文章 0 订阅

订阅专栏

直接输出（非softmax）：难以直观判断每个值的意义；真实标签的离散值和输出值的误差难以衡量

交叉熵；平方损失过于严格，我们只要其中一个值大于其他值即可。

步骤：

语言模型的目标就是评估单词序列是否合理，即： $P(w_1,w_2,...,w_T)$

贝叶斯

一个词的出现只与前面n个词有关，即n阶马尔可夫链。

在这里插入图片描述
n=1,2,3时，分别称作unigram、bigram、trigram
举例：
长度为4的序列 $w_1, w_2, w_3, w_4$ ，一元、二元、三元分别为

gather从src中提取元素形成out：

	out = torch.gather(input, dim, index)
    out[i][j] = input[index[i][j]] [j]  # dim=0
    out[i][j] = input[i] [index[i][j]]  # dim=1

记住一点：index中的元素表示的是索引，dim=0，表示的就是行索引；dim=1，表示的就是列索引。
取出该元素便获取一个位置，另一个位置就是index当前对应位置。
scatter从src中提取元素形成out：

out = torch.scatter(dim, index, input)
out[index[i][j]] [j] = src[i][j] # if dim == 0
out[i] [index[i][j]] = src[i][j]  # if dim == 1

记住一点：index中的元素表示的是索引，dim=0，表示的就是行索引；dim=1，表示的就是列索引。
区别：
gather（获取）中index表示的是input中的索引；
scatter（设置）中index表示的是output中的索引。

关注

专栏目录