机器学习

 

机器学习:让机器去学习,去执行

数据整体叫数据集,每一行数据称为一个样本(Sample),除了最后一列,每一列表达样本的一个特征(feature),最后一列,称为标记(label)

  • 分类   :结果是一个类别
  • 回归    :结果是一个连续的数字

 

 

kNN  -k近邻算法   k-Nearest Neighbors

欧拉距离:

\sqrt{(x^{a}-x^{b})^2+(y^a-y^b)^2}

\sqrt{(X_{1}^a-X_{1}^b)^2+(X_{2}^a-X_{2}^b)^2+...+(X_{n}^a-X_{n}^b)^2}

\sqrt{\sum_{i=1}^{n}(X_{i}^a-X_{i}^b)^2}

 

 

超参数:在算法运行前需要决定的参数

模型参数:算法过程中学习的参数

kNN算法没有模型参数,算法中的k是典型的超参数,另一个超参数是距离

数据归一化 Feature Scaling: 将所有的数据映射到同一尺度

最值归一化:把所有的数据映射到0-1之间

x_{scale}= \frac{x-x_{min}}{x_{max}-x_{min}}

适用于分布有明显边界的情况,受outlier影响较大

均值方差归一化  standardization :把所有数据归一到均值为0方差为1的分布中

x_{scale}= \frac{x-x_{mean}}{s}

 

 

Linear Regression 线性回归法

样本特征只有一个,称为:简单线性回归

目标:使\sum_{i=1}^{m}(y^i-\hat{y}^i)^2尽可能小

\hat{y}^2=ax^i+b

损失函数(loss function)

效用函数(utility function)

a=\frac{\sum_{i=1}^{m}(x^i-\overline{x})(y^i-\overline{y})}{\sum_{i=1}^{m}(x^i-\overline{x})^2}

b=\overline{y}-a\overlin{x}

典型的最小二乘法问题:最小化误差的平方

 

 

一类机器学习算法的基本思路:

通过分析问题,确定问题的损失函数或者效用函数;通过最优化损失函数或者效用函数,获得机器学习的模型;

回归算法的评价: 均方误差MSE(Mean Squared Error)    \frac{1}{m}\sum_{i=1}^{m}(y_{test}^i-\hat{y}_{test}^i)^2

均方根误差RMSE(Root Mean Squared Error) \sqrt{\frac{1}{m}\sum_{i=1}^{m}(y_{test}^i-\hat{y}_{test}^i)^2}

 平均绝对误差MAE(Mean Absolute Error)  \frac{1}{m}\sum_{i=1}^{m}\left | (y_{test}^i-\hat{y}_{test}^i) \right |

R Square 

 

梯度下降法  Gradient Descent

是一种基于搜索的最优化方法, 作用:最小化一个损失函数

梯度上升法:最大化一个效用函数

导数可以代表方向,对应J增大的方向,-\eta \frac{dJ}{d\theta }

系数称为学习率,取值影响获得最优解的速度

 

主成分分析  Principal Component Analysis

主要用于数据的降维

方差:Var(x)=\frac{1}{m}\sum_{i=1}^{m}(x_{i}-\overline{x})^2

 

多项式回归与模型泛华 Polynomial Regression and Model Generalization

 

 

 

 

 

 

 

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值