1.Function with with unknown parameters
定义一个函数:
2.Defin Loss from traing data
ex:L(b,w)传入的是bias和weight,简而言之就是往Loss Function里面传Model(第一步里的函数)里面的参数
L的计算方法可以自己定义,在此列举最常规的,每一次计算出的值都是e,加在一起除以总数等于L 。LOSS越小模型效果越好
3.Optimization
为了找到使LOSS最小的参数
上图介绍梯度下降的方法。开始随机找一点由学习率控制迈出的步伐。
其中红色η 是学习率。
4.sigmoid函数
例如:我们定义一个这样的sigmoid,我们往sigmoid里面传的是function
其中c是constant,乘以一个常数
我们试图改变不同的参数
会得到改变坡度,左右平移,以及改变高度等不同的效果
5.hardsigmoid函数
6.optimization的过程
每个batch是一次update,所有update是一个epoch
7.Relu->hard sigmoid
把两个Relu叠起来可以得到上图的Hard sigmoid,relu其实就是取max,当另一个值小于0时,我们取0当大于0时我们就取非0的值这时候就由直线变成了斜线。
8.神经网络
当第一层计算出的a后,可以传给第二层。每一层都是hidden layer,当层数越来越多时,也就是deep。就是deep learning 深度学习。
ex:
其中彩色的矩阵
9.名词规定
1. 机器学习模型中一般有两类参数:一类需要从数据中学习和估计得到,称为模型参数(Parameter)---即模型本身的参数。比如,线性回归直线的加权系数(斜率)及其偏差项(截距)都是模型参数。还有一类则是机器学习算法中的调优参数(tuning parameters),需要人为设定,称为超参数(Hyperparameter)。比如:梯度下降法中的学习速率α,迭代次数epoch,批量大小batch-size,k近邻法中的k(最相近的点的个数),决策树模型中树的深度
2.若在训练数据上的损失比较大,很多人第一直觉是认为模型不够复杂,无法表示输入和输出之间的关系,即model bias,但需注意,并不一定是因为model bias,还可能是优化方式出问题了(即SGD不一定适用于该场景等)。若为model bias,犹如大海捞针,但针并不在大海中
3.
在4层时训练的效果要好于3层,但是在预测效果却不如3层。这时候就是过拟合,即overfitting现象。过拟合现象产生的原因分析:若数据量过少,模型弹性过大(过于复杂)
4.总结一下就是模型太简单,会出现model bias,模型太复杂,会出现overfitting。