什么是随机梯度下降法?
① 当训练集较大时,梯度下降算法显得计算量非常大。
② 跟普通梯度下降不同的方法:随机梯度下降(stochastic gradient descent),这种方法我们可以将算法运用到较大训练集的情况中。
③ 我们依然以线性回归为例,但随机梯度下降的思想也可以应用于其他的学习算法,比如逻辑回归、神经网络或者其他依靠梯度下降来进行训练的算法中。
④ 随机梯度下降在每一步迭代中,不用考虑全部的训练样本,只需要考虑一个训练样本,如下图右边公式所示:
![324b9a65f47658f39d6071668c5c3986.png](https://img-blog.csdnimg.cn/img_convert/324b9a65f47658f39d6071668c5c3986.png)
⑤ 随机梯度下降法的第一步是将所有 m 个训练样本从 i 从 1 到 m 中进行循环。
注:首先是我的第一个训练样本(x(1),y(1)),然后只对这第一个训练样本,对它的代价函数计算一小步的梯度下降。
注:换句话说,对第一个样本把参数 θ 稍微修改一点,使其对第一个训练样本的拟合变得好一点。
注:完成这个内层循环以后,再转向第二个训练样本,利用上一次训练得到的 θj,以此类推,直到完成所有的训练集。
⑥ 这个重复循环会多次遍历整个训练集,跟批量梯度下降不同,随机梯度下降不需要等到对所有m个训练样本求和来得到梯度项,而是只需要对单个训练样本求出这个梯度项。
![fbc5ef2ce22811c861408b6dcbc9c5e2.png](https://img-blog.csdnimg.cn/img_convert/fbc5ef2ce22811c861408b6dcbc9c5e2.png)
⑦ 批量梯度下降更新参数 θ 的收敛过程会倾向于一条近似的直线,一直找到全局最小值。
⑧ 随机梯度下降中,每一次迭代都会更快,每一次迭代只需要保证对一个训练样本拟合好就行了, 所以看起来它是以某个比较随机、迂回的路径在朝全局最小值逼近。
⑨ 实际上随机梯度下降是在某个靠近全局最小值的区域内徘徊,而不是直接逼近全局最小值并停留在那点,所以通常我们用随机梯度下降法,也能得到一个很接近全局最小值的参数。
注:外层循环执行的次数取决于训练样本的大小,通常一次就够了,最多到10次,是比较典型的。
Python基础积累
if、else
_username='Alex Li'
_password='abc123'
username=input("username:")
password=input("password:")
if _username==username and _password==password:
print(("Welcome user {name} login...").format(name=username))
else:
print("Invalid username or password!")
运行结果:
username: XXXX ( 这里我输入的是:Alex Li )
password: XXXX ( 这里我输入的是:abc123 )
Welcome user Alex Li login...
注:变量可以前面可以带下划线。
注:if、else语句后面加冒号。
注:== 两个等号用来作判断作用。