背景
大数据背景的几个特点:量大large scale,实时性动态产生数据,结构化/半结构化数据,可信赖程度低(Noise,考虑模型如何更robust),高维度且稀疏的数据集。
这里主要说高维稀疏数据带来的一些问题:
x = ( x 1 , x 2 , ⋯ , x p ) x=\left(x_{1}, x_{2}, \cdots, x_{p}\right) x=(x1,x2,⋯,xp), 特征是p维,数据样例有n个,即整个dataset是 n × p ,传统的统计方法适用于一些 n > p 的情况,但是当 n << p的时候,数据量小,但想要求的参数又很多的时候就有困难了。
Linear Regression
从最基本的模型开始来看如何解决这个问题。
X 代表输入,Y代表输出, ε \varepsilon ε 是误差项。
Y = f ( X ) + ε Y=f(X)+\varepsilon Y=f(X)+ε
监督学习,给出数据集 ( X 1 , Y 1 ) , ( X 2 , Y 2 ) , … , ( X n , Y n ) \left(X_{1}, Y_{1}\right),\left(X_{2}, Y_{2}\right), \ldots,\left(X_{n}, Y_{n}\right) (X1,Y1),(X2,Y2