机器学习:让机器去学习,去执行
数据整体叫数据集,每一行数据称为一个样本(Sample),除了最后一列,每一列表达样本的一个特征(feature),最后一列,称为标记(label)
- 分类 :结果是一个类别
- 回归 :结果是一个连续的数字
kNN -k近邻算法 k-Nearest Neighbors
欧拉距离:
超参数:在算法运行前需要决定的参数
模型参数:算法过程中学习的参数
kNN算法没有模型参数,算法中的k是典型的超参数,另一个超参数是距离
数据归一化 Feature Scaling: 将所有的数据映射到同一尺度
最值归一化:把所有的数据映射到0-1之间
适用于分布有明显边界的情况,受outlier影响较大
均值方差归一化 standardization :把所有数据归一到均值为0方差为1的分布中
Linear Regression 线性回归法
样本特征只有一个,称为:简单线性回归
目标:使尽可能小
损失函数(loss function)
效用函数(utility function)
典型的最小二乘法问题:最小化误差的平方
一类机器学习算法的基本思路:
通过分析问题,确定问题的损失函数或者效用函数;通过最优化损失函数或者效用函数,获得机器学习的模型;
回归算法的评价: 均方误差MSE(Mean Squared Error)
均方根误差RMSE(Root Mean Squared Error)
平均绝对误差MAE(Mean Absolute Error)
R Square
梯度下降法 Gradient Descent
是一种基于搜索的最优化方法, 作用:最小化一个损失函数
梯度上升法:最大化一个效用函数
导数可以代表方向,对应J增大的方向,
系数称为学习率,取值影响获得最优解的速度
主成分分析 Principal Component Analysis
主要用于数据的降维
方差:
多项式回归与模型泛华 Polynomial Regression and Model Generalization