1.线性模型
2.线性回归
均方误差:均方误差亦称为平方损失,是回归任务中最常用的性能度量。
最小二乘法:基于均方误差最小化来进行模型求解的方法。
多元线性回归:亦称多变量线性回归。
广义线性回归:广义线性模型的参数估计常通过加权最小二乘法或极大似然法进行。
Sigmoid函数:Sigmoid函数是形似S的函数,对数几率函数是Sigmoid函数最重要的代表,在神经网络中有重要的作用。
极大似然法: 设总体X是离散型随机变量,其概率函数为p(x, θ),其中θ是未知参数。设X1,X2,…,Xn为取自总体X的样本,则可求出X1,X2,…,Xn的联合概率函数。如果样本取值x1,x2,…,xn,则事件(X1=x1,X2=x2,…,Xn=xn)发生的概率是为可求,这一概率值随θ的值的变化而变化,从直观上来看,既然样本值x1,x2,…,xn已经出现,它们出现的概率相对来说应比较大,应使其概率取比较大的值。极大似然法就是在参数θ的可能取值范围内,选取使*L(θ)*达到最大的参数值θ,作为参数θ的估计值。即取θ,使得L(θ)=L(x1,x2,…,xn; θ)=max(x1,x2,…,xn; θ)。
3.线性判别分析
线性判别分析,简称LDA,是一种经典的线性学习方法。它的思想非常朴素:给定训练样例集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离;在对新样本进行分类时,将其投影到同样的这条直线上,再根据投影点的位置来确定新样本的类别。
4.多分类学习
考虑N个类别C1,C2,…,Cn,多分类学习的基本思路是“拆解法”,即将多分类任务拆为若干个二分类任务求解。
拆分策略:“一对一”(简称OvO),“一对其余”(简称OvR),“多对多”(简称MvM)。OvO和OvR是MvM的特例。
纠错输出码:简称ECOC,一种最常用的MvM技术。
ECOC是将编码的思想引入类别拆分,并尽可能在解码过程中具有容错性。ECOC工作过程主要分为两步:
编码 对N个类别做M次划分,每次划分将一部分类别划为正类,一部分划为反类,从而形成一个二分类训练集;这样一共产生M个训练集,可训练出M个分类器。
解码 M个分类器分别对测试样本进行预测,这些预测标记组成一个编码。将这个预测编码与每个类别各自的编码进行比较,返回其中距离最小的类别作为最终预测结果。
5.类别不平衡问题