- 人工通用智能(Artificial General Intelligence)
- 监督学习(supervise )
监督学习的两种类型
回归:从无限多个可能的数中预测出一个数 的监督学习算法
输入X | 输出Y | 应用(模型) |
邮件 | 垃圾邮件 | 垃圾信息过滤器 |
英语 | 汉语 | 机器翻译 |
分类:比如预测的肿瘤是良性还是恶性的,图片中是狗还是猫,不限于两种,0和1表示,和回归不同的是,它的输出只能是0和1(仅有的类别)
总结:从“正确答案”中学习,然后通过新的输入预测一个输出
- 无监督学习(unsupervise)
没有提前学习,没有输入X
聚类算法:获取没有标签的数据并尝试将他们自动分组到集群中
异常检测:检测异常事件
降维:将庞大的数据集压缩为很小的数据集,且丢失很少且无用的信息
- Jupyter notebooks
- 线性回归模型
W、b:称为参数,通过调整参数可以优化模型
Wb也称为系数 (coefficient) 或权重 (weight)
- 代价函数公式
- J(w,b)表示均方误差,求均方误差的目的是找到参数w,b使得
接近
,换句话说就是求J(w,b)最小值,越小越好
- 多除以一个2是为了后面计算更加简洁
设b=0,fw(x)=wx 。
- 给定参数W不同的值,根据代价函数
,可得到J(w)关于w的曲线图,根据图可求得J(w)的最小值,此时w是最佳参数(即所求参数)
- 当w、b不等于零时:如图一个三维的图像确定J(w)的最小值
- 引出:实际运用中,并不是通过三维图或者二维图来去参数w、b的值,而是通过算法来计算,比如梯度下降法
- 梯度下降法
1、形象表示:
从顶点开始往山谷走下坡,每走一步旋转360度,看往哪个方向迈步最陡峭,直至走到谷底。
- 梯度下降法的实现——公式表达
- 每走一次(计算一次),就是对参数w、b值的更新。α
就是学习率,它控制你更新w、b时每走一步的步长。
- 注意correct和incorrect中计算的差异
- 理解梯度下降法公式含义(先不管学习率α
):
依旧设b暂时为零:
当J(w)初始值在曲线右侧时,ddwJ(w)表示此时w值对应曲线的斜率,且为正数,初始值w减去一个正数,w值会减小,那么J(w)就会向最小值靠近,反之。
- 理解学习率α
像之前所说,α 就是学习率,它控制你更新w、b时每走一步的步长。
-
- 当α
过于小的时候,如右侧上图,则J(w)要经过很多次梯度下降才能到达最小值
- 当α
过于大的时候,如右侧下图,J(w)会左右反复横跳,最后偏离最小值
- 当α
- 用于线性回归的梯度下降:
梯度下降是导向局部最小值而不是全局最小值,局部最小值表示在所有可能J点中的最小值
- 梯度下降过程
随着w、b取值使得J(w、b)越来越接近最小值
线性回归模型会被训练得越来越符合最佳模型