第一课:
NG 讲了 机器学习的两个定义。
讲了该课程将会涉及到的四大部分:监督学习、学习理论、无监督学习、强化学习。
并没种都做了一定的介绍和例子。
第二课:
讲了三部分:线性回归、梯度下降、正规方程组
假设了拟合假设h为线性函数, 利用最小二乘回归作为损失函数 来进行最小化。
分别讲述 单样本时的梯度下降和 多样本时梯度下降推演和公式。
讲述了批梯度下降的概念和SGD随机梯度下降的区别、优势、
讲述了正规方程求解参数的矩阵推倒。
原来自己摸索推出来的东西,老师十分钟就整完了,看的实在是太爽了。。。。。。赞?
第三课:
局部线性回归:(非参数模型 )当每一次需要做预测的时候,让集合中的样本由于和预测目标的距离不同而有不同 的权值wi,
因此,需要最小化的损失函数变为 均方误差 * wi 的所有样本本和 。 求使之最小的参数?。
但此时也有问题,当样本集非常大的时候,算法需要运行太多次了。此时可以运用kd树,在李航 书中,我大概知道可以利用kd树的数据结构,快速的找到某样本周遭的邻近样本,大概是认为太远距离的样本其权重W太小,所以选择忽略了吧。
我们为什么在线性回归中 利用最小二乘回归作为 损失函数?
由公式推导之后得出:当我们利用最小二乘回归做损失函数的时候,实际上是
在做 假设误差满足误差满足高斯分布,且独立同分布情况下, 使得似然性最大了。
什么是似然性呢?
就是数据的概率,一样的东西,不过从不同的方面去描述,说概率的时候,视角是样本,说似然的时候,视角在参数?
什么是极大似然估计呢?
选择一个参数,使数据出现的可能性尽可能大。
逻辑回归: 主要是自己的公司推导。没啥东西。(这里用的是最大化似然 列出需要优化的式子,然后利用梯度上升迭代算法计算参数。
和之前正规方程求参、梯度下降求参有点差别不一样)
第四课
介绍了牛顿法的原理,然后利用牛顿法求 逻辑回归的参数
介绍 指数分布族, 并且对y作出假设服从某种分布,并从该分布推出 指数分布族的形式。
当形式推出来之后,根据某些 项与 指数分布族中 项的对应关系, 能求出一些对应的关系时。
然后是利用 三个假设 写出 h(x) 的式子,
然后怎么应用这个东西呢?
比如 我要做 二分类,则我的y是只= 0or 1,因此, 我假设y服从伯努利分布,当我做出这个假设后,有人就帮我做完了我上面面的一系列分析(分布演化成指数分布的形式后 得到 h(x))。
因此,当我指定好了 我对y的假设为 伯努利分布之后,则 我就得到了 h(x)= 1 /( 1 + exp(-?x) )
ok,局势明朗了很多, 我就要进行求参了, 无论是用极大似然估计,然后用(梯度上升法、求导)来得到参数的值。
或者 利用最小二乘法 构造 一个损失 项,然后用 梯度下降法 求参数。
确定好了参数,就可以开心的使用模型啦,进行预测(暂不考虑过拟合什么的~~~~)
ok,这就是第四章的主要内容。
我把视频看完了。但是, 我没继续写,,,哇,,当时发生了什么。
完结~