线性模型
机器学习三要素:模型、策略、算法。
1.基本形式
线性模型:通过属性的线性组合来进行预测的函数,许多更为强大的非线性模型可在线性模型基础上引入层级结构或高级映射而得:
在w和b学得之后模型就得以确定,w的存在直观表达各属性在预测中的重要性,使模型具有很好的可解释性:
2.线性回归
试图通过给定的离散数据学得线性模型 f(xi)来预测真实值yi。
单属性函数形式:
多属性函数形式:
其中,w=(w1;w2;…;wb).
这里没有遵循矩阵相乘定义,行向量和列向量本质上是是一样的,将w转置是为了配合X矩阵,计算机计算无需严格按照矩阵相乘定义。
单属性线性回归
通过 f(x)与 yi差别来确定 w, b两参数,需引入反映估计值与被估计值之间差异的性能度量——均方误差(回归问题中常见损失函数),使均方误差最小,即
求解方法:最小二乘法
最小二乘法求解w、b两参数
基于均方误差对模型求解的方法。在二维中,是试图找到一条直线,使得所有样本点到该直线欧式距离和最小。
最小二乘的参数估计:求解公式中参数 w和 b,使得公式最小化的过程
多属性线性回归
与单属性类似,不过需要求解的 w成了向量,包含多个 w参数。同样,将数据集也形成了矩阵 D。
w向量:1行d列
D矩阵:m行d列。m组每组d个向量。
为便于讨论,将 w与 b吸收进向量形式 ,再把真实标记值也写成向量形式y = (y1;y2;…ym)。把 D矩阵表示为一个 m * (d+1)大小的矩阵 X。
对应单属性线性回归均方误差,多属性线性回归均方误差为
最小二乘法(满秩)与梯度下降算法(非满秩)求解w、b两参数。
对数线性回归
为体现线性模型具有丰富的变化,可令模型预测值逼近真实值的衍生物,例如ln(y)。在形式上仍然是线性回归,在实质上已是在求取输入空间到输出空间的非线性函数映射。
广义线性模型
广义线性模型通过单调可微(单调可导连续)函数 g(•)作为联系函数来实现对模型预测值逼近真实值的衍生物。
形式:
对树线性回归函数就是广义线性模型在 g(•) = ln(•)的特例。
对数几率回归
线性回归进行回归学习,当任务为分类任务时,可利用广义线性模型,即找一个单调可微函数将分类任务的真实标记 z与线性回归模型的预测值联系起来。
线性判别分析
性别判定分析简称LDA,其思想为给定训练样例集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近,异类样例点尽可能远离。在对新样本进行分类时,将其投影到同样的这条线上,再根据投影点的位置来确定新样本的类别。
多分类学习
多分类任务处理的基本方法是将多分类任务拆为若干个二分类任务求解.
一对一拆分策略 一对多拆分策略 多对多拆分策略
类别不平衡问题
样本中不同类别样本数目差别很大,大体上由三类解决方法:欠采样(剔除多的)、过采样(补充少的)、阈值移动(基于原始数据集训练,预测时候做一次放缩)。