2021-09-25

机器学习模型中一般有两类参数:

一类需要从数据中学习和估计得到,称为模型参数(Parameter)---即模型本身的参数。比如,线性回归直线的加权系数(斜率)及其偏差项(截距)都是模型参数。

还有一类则是机器学习算法中的调优参数(tuning parameters),需要人为设定,称为超参数(Hyperparameter)。比如,正则化系数λ,决策树模型中树的深度。

sample batch epoch

Sample
Sample是单个数据。即有意义的数据的最小单位。

训练数据集由许多Sample组成。

batch:sample扎成堆
batch是一个人为设定的超参数。

batch的意思是“批”,即把一定数目的Sample组合到一起,组成一个batch。
batch_size表示一个batch中Sample的个数

另外,batch的大小与梯度下降的种类有关:

批量梯度下降 —> batch_size=训练集的大小(整个训练集作为一个batch)
随机梯度下降 —> batch_size= 1(每个batch中只有一个Sample)
小批量梯度下降 —> 1 <batch_size<训练集的大小(每个batch中Sample的个数大于1且小于训练集Sample的总数)


epoch
epoch是一个人为设定的超参数。

epoch定义了学习算法在整个训练数据集中的工作次数。
一个epoch表示,训练集中的每个Sample都有机会更新内部模型参数。
epoch由一个或多个batch组成(由batch中包含的Sample的量决定)。例如,只有一个batch的epoch,称为批量梯度下降学习算法。

epoch 数量一般很大,通常是数百或数千,允许学习算法运行到模型的误差被充分地最小化。

张量(tensor)的理解

因为我们通常需要处理的数据有零维的(单纯的一个数字)、一维的(数组)、二维的(矩阵)、三维的(空间矩阵)、还有很多维的。Pytorch为了把这些各种维统一起来,所以起名叫张量。

即:

张量可以看作是一个多维数组。标量可以看作是0维张量,向量可以看作1维张量,矩阵可以看作是二维张量。如果你之前用过NumPy,你会发现 Tensor和NumPy的多维数组非常类似。

也就是说,tensor和NumPy都是为了表达张量(多维数组),在这些张量(多维数组)上可以进行各种各样的运算,因此把张量及其运算封装成了类,张量的运算就是类里面的方法。

在各种程序语言中, 张量是以多维数组的形式表示的,
1个三维(阶 rank)张量a: (shape:(3,2,1)),
[
[[1],[2]],
[[3],[4]],
[[5],[6]]
]
张量的rank

红:三行

绿:两列

蓝:深度为1(一个数字)
要找到某个元素, 需要指定数组的下标, 如a[3,2,1]=6,但a[3,2,1]与其元素的值的意义不完全相同。

#四维张量
const4 = tf.constant([
                     #第一个3行4列深度为2的三维张量
                     [[[1,  2], [ 3,  4], [ 5,  6], [ 7,  8]],
                     [[11, 12], [13, 14], [15, 16], [17, 18]],
                     [[21, 22], [23, 24], [25, 26], [27, 28]]
                     ],
                     #第二个3行4列深度为2的三维张量
                     [[[1,  2], [ 3,  4], [ 5,  6], [ 7,  8]],
                     [[11, 12], [13, 14], [15, 16], [17, 18]],
                     [[21, 22], [23, 24], [25, 26], [27, 28]]]
                     ], tf.float16)
print(const4)
Tensor("Const_4:0", shape=(2, 3, 4, 2), dtype=float16)

  对axis的理解(代表张量的一个维度)

张量在神经网络训练过程中的应用

经常使用下面的方式对输入数据进行变换:

output = relu(dot(w, input) + b)

其中,w和b都是张量,它们为该层的权重或可训练参数,这些权重包含网络从观察训练数据中学到的信息。

一开始,这些权重矩阵取较小的随机值,这一步叫做随机初始化,运算不会得到有用的表示。

虽然得到的表示没有意义,但这是一个起点,下一步是根据反馈信号逐渐调节这些权重,这个逐渐调节的过程叫做训练,也就是机器学习中的学习。

学习的过程是一个循环:

抽取训练样本x和对应目标y组成的数据批量
在x上运行网络,即前向传播,得到预测值y_pred
计算网络在这批数据上的损失,用于衡量y_pred和y之间的距离
在更新网络的所有权重,使网络在这批数据上的损失略微下降
最终得到的网络在训练数据上的损失非常小,即预测值y_pred和预期目标y之间的距离非常小。

网络就学会了将输入映射到正确目标。

第一步看起来非常简单,只是输入/ 输出(I/O)的代码。

第二步和第三步仅仅是一些张量运算的应用。

难点在于第四步:更新网络的权重。考虑网络中某个权重系数,你怎么知道这个系数应该增大还是减小,以及变化多少?

简单的方法是保持其他参数不变,只调节其中一个,观察反馈。但是,当网络中参数成千上万个时,这种方法低效且计算代价巨大。

一种更好的方法是利用网络中所有运算都是可微的这一事实,计算损失相对于网络系数的梯度,然后向梯度的反方向改变系数,从而使损失降低。

关于可微、导数、梯度、随机梯度下降、链式求导(反向传播算法)等基本数学原理,可以参考相关资料。

于是,第四步就可以通过下述流程有效实现:

计算损失相对于网络参数的梯度(一次反向传播)
将参数沿着梯度的反方向移动一点,从而使这批数据上的损失减少一点
 

使用python中的pymsql完成如下:表结构与数据创建 1. 建立 `users` 表和 `orders` 表。 `users` 表有用户ID、用户名、年龄字段,(id,name,age) `orders` 表有订单ID、订单日期、订单金额,用户id字段。(id,order_date,amount,user_id) 2 两表的id作为主键,`orders` 表用户id为users的外键 3 插入数据 `users` (1, '张三', 18), (2, '李四', 20), (3, '王五', 22), (4, '赵六', 25), (5, '钱七', 28); `orders` (1, '2021-09-01', 500, 1), (2, '2021-09-02', 1000, 2), (3, '2021-09-03', 600, 3), (4, '2021-09-04', 800, 4), (5, '2021-09-05', 1500, 5), (6, '2021-09-06', 1200, 3), (7, '2021-09-07', 2000, 1), (8, '2021-09-08', 300, 2), (9, '2021-09-09', 700, 5), (10, '2021-09-10', 900, 4); 查询语句 1. 查询订单总金额 2. 查询所有用户的平均年龄,并将结果四舍五入保留两位小数。 3. 查询订单总数最多的用户的姓名和订单总数。 4. 查询所有不重复的年龄。 5. 查询订单日期在2021年9月1日至9月4日之间的订单总金额。 6. 查询年龄不大于25岁的用户的订单数量,并按照降序排序。 7. 查询订单总金额排名前3的用户的姓名和订单总金额。 8. 查询订单总金额最大的用户的姓名和订单总金额。 9. 查询订单总金额最小的用户的姓名和订单总金额。 10. 查询所有名字中含有“李”的用户,按照名字升序排序。 11. 查询所有年龄大于20岁的用户,按照年龄降序排序,并只显示前5条记录。 12. 查询每个用户的订单数量和订单总金额,并按照总金额降序排序。
06-03
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值