第一阶段学习笔记

最新推荐文章于 2024-07-06 23:16:37 发布

snTTTTT

最新推荐文章于 2024-07-06 23:16:37 发布

阅读量216

点赞数

本文链接：https://blog.csdn.net/dognan/article/details/104318293

版权

线性回归
模型为了简单起见，这里我们假设价格只取决于房屋状况的两个因素，即面积（平方米）和房龄（年）。接下来我们希望探索价格与这两个因素的具体关系。线性回归假设输出与各个输入之间是线性关系:
price=warea⋅area+wage⋅age+b
损失函数
在模型训练中，我们需要衡量价格预测值与真实值之间的误差。通常我们会选取一个非负数作为误差，且数值越小表示误差越小。一个常用的选择是平方函数。它在评估索引为 ii 的样本误差的表达式为
l(i)(w,b)=12(y^{(i)−y(i))2,l(i)(w,b)=12(y}(i)−y(i))2,L(w,b)=1n∑i=1nl(i)(w,b)=1n∑i=1n12(w⊤x(i)+b−y(i))2.
矢量计算
在模型训练或预测时，我们常常会同时处理多个数据样本并用到矢量计算。在介绍线性回归的矢量计算表达式之前，让我们先考虑对两个向量相加的两种方法。
向量相加的一种方法是，将这两个向量按元素逐一做标量加法。
timer = Timer() c = torch.zeros(n) for i in range(n): c[i] = a[i] + b[i] '%.5f sec' % timer.stop()
加的另一种方法是，将这两个向量直接做矢量加法。

timer.start()
d = a + b
'%.5f sec' % timer.stop()

softmax和分类模型
分类问题
一个简单的图像分类问题，输入图像的高和宽均为2像素，色彩为灰度。
图像中的4像素分别记为x1,x2,x3,x4x1,x2,x3,x4。
假设真实标签为狗、猫或者鸡，这些标签对应的离散值y1,y2,y3y1,y2,y3。
我们通常使用离散的数值来表示类别，
例如y1=1,y2=2,y3=3y1=1,y2=2,y3=3。
权重矢量
o1=x1w11+x2w21+x3w31+x4w41+b1o1=x1w11+x2w21+x3w31+x4w41+b1o2=x1w12+x2w22+x3w32+x4w42+b2o2=x1w12+x2w22+x3w32+x4w42+b2o3=x1w13+x2w23+x3w33+x4w43+b3o3=x1w13+x2w23+x3w33+x4w43+b3神经网络图
下图用神经网络图描绘了上面的计算。softmax回归同线性回归一样，也是一个单层神经网络。由于每个输出o1,o2,o3o1,o2,o3的计算都要依赖于所有的输入x1,x2,x3,x4x1,x2,x3,x4，softmax回归的输出层也是一个全连接层。
交叉熵损失函数
对于样本ii，我们构造向量y(i)∈Rqy(i)∈Rq ，使其第y(i)y(i)（样本ii类别的离散数值）个元素为1，其余为0。这样我们的训练目标可以设为使预测概率分布y^(i)y(i)尽可能接近真实的标签概率分布y(i)y(i)。
平方损失估计Loss=|y^(i)−y(i)|2/2
交叉熵（cross entropy）是一个常用的衡量方法：H(y(i),y^{(i))=−∑j=1qy(i)jlogy}(i)j,
多层感知机
常见激活函数
1.ReLU函数
ReLU（rectified linear unit）函数提供了一个很简单的非线性变换。给定元素x，该函数定义为
ReLU(x)=max(x,0).ReLU(x)=max(x,0).
可以看出，ReLU函数只保留正数元素，并将负数元素清零。为了直观地观察这一非线性变换，我们先定义一个绘图函数xyplot。
2.Sigmoid函数
sigmoid函数可以将元素的值变换到0和1之间在这里插入图片描述
3.tanh函数
tanh（双曲正切）函数可以将元素的值变换到-1和1之间：

我们接着绘制tanh函数。当输入接近0时，tanh函数接近线性变换。虽然该函数的形状和sigmoid函数的形状很像，但tanh函数在坐标系的原点上对称。
文本预处理
文本是一类序列数据，一篇文章可以看作是字符或单词的序列，本节将介绍文本数据的常见预处理步骤，预处理通常包括四个步骤：
(1)读入文本
(2)分词
(3)建立字典，将每个词映射到一个唯一的索引（index）
(4)将文本从词的序列转换为索引的序列，方便输入模型
语言模型
一段自然语言文本可以看作是一个离散时间序列，给定一个长度为TT的词的序列w1,w2,…,wTw1,w2,…,wT，语言模型的目标就是评估该序列是否合理，即计算该序列的概率：P(w1,w2,…,wT).P(w1,w2,…,wT)
n元语法
马尔科夫假设是指一个词的出现只与前面nn个词相关，即nn阶马尔可夫链（Markov chain of order nn），如果n=1，那么有P(w3∣w1,w2)=P(w3∣w2)P(w3∣w1,w2)=P(w3∣w2)。基于n−1n−1阶马尔可夫链，我们可以将语言模型改写为
在这里插入图片描述
以上也叫nn元语法（nn-grams），它是基于n−1n−1阶马尔可夫链的概率语言模型。
例如，当n=2时，含有4个词的文本序列的概率就可以改写为：P(w1,w2,w3,w4)=P(w1)P(w2∣w1)P(w3∣w1,w2)P(w4∣w1,w2,w3)
=P(w1)P(w2∣w1)P(w3∣w2)P(w4∣w3)P(w1,w2,w3,w4)
=P(w1)P(w2∣w1)P(w3∣w1,w2)P(w4∣w1,w2,w3)
=P(w1)P(w2∣w1)P(w3∣w2)P(w4∣w3)当n分别为1、2和3时，我们将其分别称作一元语法（unigram）、二元语法（bigram）和三元语法（trigram）。
例如，长度为4的序列w1,w2,w3,w4w1,w2,w3,w4在一元语法、二元语法和三元语法中的概率分别为
P(w1,w2,w3,w4)=P(w1)P(w2)P(w3)P(w4),
P(w1,w2,w3,w4)=P(w1)P(w2∣w1)P(w3∣w2)P(w4∣w3),
P(w1,w2,w3,w4)=P(w1)P(w2∣w1)P(w3∣w1,w2)P(w4∣w2,w3).
循环神经网络
基于当前的输入与过去的输入序列，预测序列的下一个字符。循环神经网络引入一个隐藏变量H，用Ht表示H在时间步t的值。Ht的计算基于Xt和Ht−1，可以认为Ht记录了到当前字符为止的序列信息，利用Ht对序列的下一个字符进行预测。
裁剪梯度
循环神经网络中较容易出现梯度衰减或梯度爆炸，这会导致网络几乎无法训练。裁剪梯度（clip gradient）是一种应对梯度爆炸的方法。假设我们把所有模型参数的梯度拼接成一个向量 g，并设裁剪的阈值是θ。裁剪后的梯度min(θ∥g∥,1)g的L2范数不超过θ。
困惑度
我们通常使用困惑度（perplexity）来评价语言模型的好坏。回忆一下“softmax回归”一节中交叉熵损失函数的定义。困惑度是对交叉熵损失函数做指数运算后得到的值。
特别地，最佳情况下，模型总是把标签类别的概率预测为1，此时困惑度为1
最坏情况下，模型总是把标签类别的概率预测为0，此时困惑度为正无穷；基线情况下，模型总是预测所有类别的概率都相同，此时困惑度为类别个数。显然，任何一个有效模型的困惑度必须小于类别个数。

snTTTTT

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
第一阶段学习笔记

线性回归模型为了简单起见，这里我们假设价格只取决于房屋状况的两个因素，即面积（平方米）和房龄（年）。接下来我们希望探索价格与这两个因素的具体关系。线性回归假设输出与各个输入之间是线性关系:price=warea⋅area+wage⋅age+b损失函数在模型训练中，我们需要衡量价格预测值与真实值之间的误差。通常我们会选取一个非负数作为误差，且数值越小表示误差越小。一个常用的选择是平方函数。 ...
复制链接

扫一扫