首先介绍一下分类学习,其输出的变量y,是从少量几个可能的值中得出的。
这部分是二分类的内容,也许后面有多分类再补充了。
只有两个可能的分类问题,称为二分类问题,通常用数字0和1来表示模型预测结果y,0为假,1为真。
逻辑函数 Sigmoid函数,则 0<g(z)<1,令 z = wx+b
所以预测函数为:,逻辑回归模型,它输入特征或特征集x,然后输出0到1之间的数字,这个输出可看作是:给定输入x的情况下,类别或标签y等于1的概率
当 g(z) >= 0.5时,预测值y` = 1,则由逻辑函数为 z >= 0,即 wx+b >= 0
逻辑回归中的代价函数为
当 时,
,则
,即f->0,损失越小。
当 时,
,则
,即f->0,损失越小。
如果把上面的代价函数写成一条比较简约的公式,可写为:
再进行简化:
然后是两条梯度函数
,
,
下面是拟合的问题
欠拟合:模型对训练数据的拟合不足; 过拟合:与数据吻合得太好了
泛化:即使是对没出现的数据样本其他模型,也能有很好的预测效果
解决过拟合和欠拟合的方法
过拟合:
1、收集更多的数据
2、适用更少的特征(不用太多的多项式特征)
3、正则化,尽可能地让算法缩小参数的值,而不是要求一定要把参数变成0.
正则化的作用是:它让你保留所有的特征,但防止特征权重过大,这有时会导致过拟合
假设
,让w3和w4这两个参数变得非常小。
则用一个修改的代价函数
这里w3和w4的取值必须尽量地小,代价函数才会小。
参数值越小,模型可能会简单,也许是因为一个模型的特征变少了,那它过拟合的可能性也变小了。
正则化更多地是惩罚所有参数,让每个数据地参数都尽可能地小
所以在正则化后,代价函数为:
n:特征数量 :正则化参数
>0(需要自己选)
至于参数b,惩罚与不惩罚并没有太大所谓
前一项的目标:拟合数据; 后一项的目标:减小过拟合的风险
正则后梯度下降函数:
,
,