1 导论
1.1 什么是机器学习?
机器学习的一个重要目标就是利用数学模型来理解数据,发现数据中的规律,用作数据分析和预测。
1.1.1 数据?
数据通常由一组向量组成,这组向量中的每一个向量都是一个样本,我们用 x i x_{i} xi来表示一个样本,其中 i = 1 , 2 , 3... N i = 1,2,3...N i=1,2,3...N,共 N N N个样本。每个样本 x i = ( x i 1 , x i 2 . . . x i p , y i ) x_{i} = \left ( x_{i1},x_{i2}...x_{ip},y_{i} \right ) xi=(xi1,xi2...xip,yi)共 p + 1 p+1 p+1个维度,$ x_{i1},x_{i2}…x_{ip} 称 为 特 征 , 称为特征, 称为特征,y_{i} 称 为 因 变 量 或 者 响 应 变 量 。 特 征 用 来 描 述 影 响 因 变 量 称为因变量或者响应变量。特征用来描述影响因变量 称为因变量或者响应变量。特征用来描述影响因变量y_{i}$的因素。例如,我们要探寻身高是否会影响体重的关系的时候,身高就是一个特征,体重就是因变量。
通常在一个数据表 d a t a f r a m e dataframe dataframe里面,一行表示一个样本 x i x_{i} xi,一列表示一个特征。
对数据形式的约定:
- 第 i i i个样本: x i = ( x i 1 , x i 2 , . . . , x i p , y i ) T x_{i} = \left ( x_{i1},x_{i2},...,x_{ip},y_{i} \right )^{T} xi=(xi1,xi2,...,xip,yi)T, i = 1 , 2 , 3... N i = 1,2,3...N i=1,2,3...N
- 因变量 y = ( y 1 , y 2 , . . . , y N ) T y = \left ( y_{1}, y_{2},...,y_{N}\right )^{T} y=(y1,y2,...,yN)T
- 第 k k k个特征: x ( k ) = ( x 1 k , x 2 k , . . . , x N k ) T x^{\left ( k \right )} = \left ( x_{1k}, x_{2k} ,..., x_{Nk} \right )^{T} x(k)=(x1k,x2k,...,xNk)T
- 特征矩阵 X = ( x 1 , x 2 , . . . , x N ) T X = \left ( x_{1},x_{2},...,x_{N} \right )^{T} X=(x1,x2,...,xN)T
1.1.2 有监督学习和无监督学习
根据数据是否有因变量,机器学习的任务可分为:有监督学习和无监督学习。
-
有监督学习:给定某些特征去估计因变量,即因变量存在的时候,我们称这个机器学习任务为有监督学习。例如,我们用房间面积、房屋所在地区、环境等级等因素去预测某个地区的房价。
根据因变量是否连续,有监督学习分为回归和分类。