(4.6)
从 https://blog.csdn.net/u013733326/article/details/79907419 发现属于自己的问题。
1.随机梯度下降(SGD)算法和小批量梯度下降算法的对比
代码只是用来做比较的,并不能在程序中运行。
总结一下随机梯度下降(SGD)算法和小批量梯度:
随机梯度算法的样本是只有1个样本,完全遍历m次才是1次epoch。
小批量梯度算法的样本是1~m之间的一个数n,完全遍历m/n次是以此epoch。
2.如何切分数据集
1)打乱数据集的顺序
采用这个方法 np.random.permutation(m)
函数shuffle与permutation都是对原来的数组进行重新洗牌(即随机打乱原来的元素顺序);区别在于shuffle直接在原来的数组上进行操作,改变原来数组的顺序,无返回值。而permutation不直接在原来的数组上进行操作,而是返回一个新的打乱顺序的数组,并不改变原来的数组。
来自
https://blog.csdn.net/lyy14011305/article/details/76207327
a = np.arange(12)
print a
np.random.shuffle(a)
print a
print
a = np.arange(12)
print a
b = np.random.permutation(a)
print b
print a
结果如下:
[ 0 1 2 3 4 5 6 7 8 9 10 11]
[11 6 4 10 3 0 7 1 9 2 5 8]
[ 0 1 2 3 4 5 6 7 8 9 10 11]
[10 4 8 11 1 7 6 2 0 9 5 3]
[ 0 1 2 3 4 5 6 7 8 9 10 11]
对于X[:,n]形式的理解,来自
https://blog.csdn.net/u014159143/article/details/80307717
对于二维数组来说,
(1)x[:,n]或者x[n,:]
x[:,n]表示在全部数组(维)中取第n个数据,直观来说,x[:,n]就是取所有集合的第n个数据。
(2)x[n,:]表示在n个数组(维)中取全部数据,直观来说,x[n,:]就是取第n集合的所有数据,。
(3)x[:,m:n],即取所有数据集的第m到n-1列数据。
以此来理解的话x[:,数组]应该便是将数据按数组的顺序排列。
x = np.array([[1,2,3,4,5,6,7,8,9],
[9,8,7,6,5,4,3,2,1]])
y = np.array([[1,0,1,0,1,0,1,0,1]])
permutation= [7, 2, 1, 4, 8, 6, 3, 0, 5]
shuffled_x = x[:,permutation]
shuffled_y = y[:,permutation]
print(shuffled_x)
print(shuffled_y)
输出结果:
[[8 3 2 5 9 7 4 1 6]
[2 7 8 5 1 3 6 9 4]]
[[0 1 0 1 1 1 0 1 0]]
2)分割
math.floor(x) 返回小于等于 x,且与 x 最接近的整数。
x[:,m:n],即取所有数据集的第m到n-1列数据。
以此来理解的话x[:,数组]应该便是将数据按数组的顺序排列。
3)处理剩余的数据
3.初始化Vdw,Vdb
np.zeros()和np.zeros_like()
np.zeros(shape, dtype=float, order=‘C’)
返回:返回来一个给定形状和类型的用0填充的数组;
numpy.zeros_like(a, dtype=None, order=‘K’, subok=True)[source]
返回:返回一个和给定变量形状一致的用0填充的的数组;
4.Adam算法
步骤:
1. 计算以前的梯度的指数加权平均值,并将其存储在变量vv(偏差校正前)和vcorrectedvcorrected(偏差校正后)中。
2. 计算以前梯度的平方的指数加权平均值,并将其存储在变量ss(偏差校正前)和scorrectedscorrected(偏差校正后)中。
3. 根据1和2更新参数。
np.power()针对数字使用的平方,np.square()针对矩阵使用的平方
如果你使用的是jupyter notebook 可能会出现由于opt_utils中237行报错,因为矩阵形状的问题,所以我们要修改c = np.squeeze(y)