七月在线4月机器学习算法班课程笔记——No.5
前言
回归算法是一种通过最小化预测值与实际结果值之间的差距,而得到输入特征之间的最佳组合方式的一类算法。对于连续值预测有线性回归等,而对于离散值/类别预测,我们也可以把逻辑回归等也视作回归算法的一种。
线性回归与逻辑回归是机器学习中比较基础又很常用的内容。线性回归主要用来解决连续值预测的问题,逻辑回归用来解决分类的问题,输出的属于某个类别的概率,工业界经常会用逻辑回归来做排序。在SVM、GBDT、AdaBoost算法中都有涉及逻辑回归,回归中的损失函数、梯度下降、过拟合等知识点也经常是面试考察的基础问题。因此很重要的两个内容,需要仔细体会~
1. 线性回归
1.1 线性回归问题
线性回归,是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。其表达形式为y = w’x+e,e为误差服从均值为0的正态分布。中学就有接触线性回归,那么线性回归应用在什么地方呢?它适用于有监督学习的预测。
一元线性回归分析: y=ax+b ,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示。
多元线性回归分析: hθ(x)=θ0+θ1x1+...+θnxn ,包括两个或两个以上的自变量,并且因变量和自变量是线性关系。
1.2 损失函数
损失函数:是指一种将一个事件(在一个样本空间中的一个元素)映射到一个表达与其事件相关的经济成本或机会成本的实数上的一种函数。更通俗地说,损失函数用来衡量参数选择的准确性。损失函数定义为:
J(θ0,θ1,...,θn)=12m∑i=1m(hθ(x(i))−y(i)