回归和分类
回归和分类是机器学习可以解决两大主要问题,从预测值的类型上来区分,连续变量的预测称为回归,离散变量的预测称为分类。例如:预测房价的价格是一个回归任务;预测一张图片是猫还是狗的图片是分类任务。
线性回归
在一维特征空间,线性回归是通过学习一条直线
,使得这条之间尽可能的拟合所有已有的看到的点的
值,并希望测试数据尽可能的落到这条线上,有很好的繁华性能。其中
是预测值,
是实际值。在多维空间,线性回归表示为:
- 解决回归问题
- 连续的变量
- 符合信息关系
- 直观表达变量关系
逻辑回归
逻辑回归(Logistic Regression)主要解决二分类问题,用来表示某件事发生的可能性。
- 这张图片是不是狗(是、不是)
- 这封邮件是不是垃圾邮件(是、不是)
- 当前脑CT是不是包含并病灶(是、不是)
如何基于回归进行二分类?在多维空间表示上,线性回归表示为:
,逻辑回归表示为:
, sigmoid 函数可以将
输出的值映射到 0,1 之间,如果 >= 0.5 ,则属于正,如果 < 0.5 则属于负。sigmoid 函数表达式如下:
- 解决分类问题
- 离散的变量
- 可以不符合线性关系
- 无法直观表达变量关系
现在有
个样本,如何求解参数值?罗辑回归的目标函数是什么?极大似然估计,即利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值。
极大似然估计
表示分类标签,
表示输入,
表示参数。
上面两个式子用下面的式子表示:
这个式子可以理解为,我们将数据
输入到参数为
的模型中,我们期望模型的输出是
的概