【pytorch03】pytorch基本数据类型

最新推荐文章于 2024-07-03 09:27:53 发布

艾卡西亚丶暴雨L

最新推荐文章于 2024-07-03 09:27:53 发布

阅读量744

点赞数 9

分类专栏： pytorch入门学习文章标签： pytorch 人工智能 python

本文链接：https://blog.csdn.net/qq_45291280/article/details/139884199

版权

pytorch入门学习专栏收录该内容

18 篇文章 0 订阅

订阅专栏

数据类型
问题：String类型在pytorch中如何表示？
很遗憾，pytorch不是完备的语言库，而是面向数据计算的一个GPU加速库，因此没有内建对string的支持

我们会在做NLP的时候会遇到all string处理的问题，就比如说一句话，把这句话翻译成另外一个国家的语言，这里面肯定是要注意string的，那么作为深度学习的一个GPU加速库pytorch免不了要处理string，但是它内部又没有string的自带的表示方法，那如何表达string呢？

两种表示方法：

One-hot
- [0,1,0,0,…]
Embedding
- Word2vec
- glove

one-hot之前已经讲过，这里简单回顾，比如要表达猫狗这两类，用一维向量[0,1]来表示cat,[1,0]来表示dog，因此是一种编码表示，我们其实是没有内建string的支持的，只是用一种数字的方法来替代了

26个字母只要编码为一个长度为26的向量，但对于汉字或者多国的语言，甚至其他的单词（英语单词常用的单词有上万个），那么单词如果用一个上万列向量的编码来表示，整个向量会变得会变得非常稀疏（也就是大部分元素是0，只有一个元素位置是1），更致命的是这个向量会因为语言之间（例如 i like 或 i love）的语义相关性（i dislike）语义相反性，但对于one-hot编码来说每一个位置代表一个意思，因此两个单词之间的相关性并没有在one-hot中得到体现，怎么解决这个问题？

在NLP里面有一个专门的embedding layer，就是解决怎么用数字的方法来表示一个语言并具有相关性的方法

数据类型
注意：一个tensor有可能被放置在CPU上，也有可能被放置在GPU上，对于GPU上的tensor，即使我们觉得可能它和CPU上的tensor是一个东西，但是对于pytorch来说并不是，GPU上的tensor会在中间加cuda

在这里插入图片描述
x.cuda()会返回gpu上的一个引用
数据一样，放的位置不一样，造成的类型不一样

标量
1.3是0维，但是[1.3]是1维，长度为1的Tensor

问题：dimension为0的数据用来表示什么？
最常见的就是计算loss，计算输出值跟我们期待的那个值之间的误差，误差最终求和平均后会得到一个标量，这个标量就称之为loss，这个loss用的最多的就是一个dimension为0的标量，如果用instance把它打印出来的话可以看到是一个size为0的某一种数据类型

问题：如何得到变量的shape
在这里插入图片描述
a.shape对应的是a.size()函数，shape是一个成员，而size()是一个成员函数

dimension为1

数学中叫做向量，pytorch中统一称之为张量
在这里插入图片描述
.tensor()的时候指定的是具体的数据
.FloatTensor()的时候是随机初始化的，只需要接收数据的shape

问题：dimension为1的tensor一般用在哪？
用在bias（偏移量），偏移量的维度一般都是1维的
在这里插入图片描述
神经网络线性层的输入
[28,28]=>[784]
pytorch 0.3之前dimension=0是不存在的
为了区分标量0.3和长度为1的向量[0.3]就引入了dimension=0

如何得到dimension为1向量的shape
在这里插入图片描述
可以用.shape也可以用.size()函数
问题：如何区分dimension、size(或者叫shape)?
比如说2维的tensor，这个2维的2的意思就是dimension，size是整个shape
dimension就是size的长度
size就是指代的tensor具体的形状