机器学习相关概念

来自:https://www.jianshu.com/p/ddcaeefb5b97

一、概念

  1. 拟合,欠拟合,过拟合
    • 拟合:测试机数据对于模型的匹配度,趋于欠拟合和过拟合之间;
    • 欠拟合:学到的很少;
    • 过拟合:学习过度;
  2. 方差,偏差
    • 方差:描述数据的集中程度;
    • 偏差:描述距离目标的远近程度;
  3. 模型 ≈ 规律 ≈ 方程系数 ≈ 参数权重(Weight);
    • 即:模型就是用来衡量一组量的重要程度的一组参数
  4. 机器学习 ≈ 模式识别;
  5. 算法 ≈ 方程;
  6. 拟合 ≈ 匹配;
  7. 训练 ≈ 解一组方程;

二、机器学习

  1. 什么是机器学习

    • 官方的定义就不再说了,通俗地说,就是让机器像人一样的思考解决问题;稍微书面一点,机器学习对编程人员:让机器去解方程,寻找最优的一组系数(模型);可以理解机器学习为数据挖掘的算法;
  2. 机器学习的范畴

    • 机器学习是一门交叉学科, 模式识别、数据挖掘、统计学习、计算机视觉、语音识别、自然语言处理等,每一个都是重量级的学科
  3. 机器学习的分类

    • 监督学习(原始数据有y)
      • 分类学习
      • 回归学习
    • 无监督学习(原始数据没有y)
      • 聚类学习
      • 降维学习
  4. 相关的Python库

    • numpy:数学计算框架
    • scipy:物理计算框架
    • pandas:数据分析框架,主要用来分析表格数据
    • matplotlib:绘图的框架
    • scikit-learn:机器学习的框架
    • tensorflow:谷歌开源出来的深度学习的框架
    • keras:开源出来的深度学习的框架
  5. 术语理解

    • 机器学习:根据一组参数(w:weight)寻找一个方程,使得随着参数x的变换,结果y尽可能近似于真实结果;利用图形的说法:寻找一条线,使得这条线在y方向上尽可能的离所有点的y值的平均值相近,即使得损失函数最小;那么我们求得的这个方程就是机器学习的核心目标,我们需要解决两个问题:①一组方程的系数;②方程的幂次:是几元几次方程;
      • 线性回归的损失函数:J\left ( \theta \right )= \frac{1}{m}\sum_{i=1}^{m}\left (y _{i}-\hat{y_{i}} \right )^2
        • 损失函数(LossFunction)也称为:目标函数代价函数(CostFunction):损失函数越小,总最大似然估计越大,我们的模型越准确;
        • 损失函数是一个凸函数;
        • 最小二乘法,(R)MSE((Root: 开根号) mean squared error),平方均值损失函数(均方误差);
        • 这里的公式在这里生成,简书中的数学公式(支持不是太好,凑合看吧,过段时间搭建自己博客):①行内公式使用$包裹②块级公式使用$$包裹;
    • 多元线性回归预测值与模型的关系:Y = W^{T} \cdot X 或者Y = \theta ^{T}\cdot X
      • W:weight,有时候使用\theta表示;
    • 算法:在一定范围内上下浮动的系数构成的方程,参数也称为影响结果的维度;
    • 线性回归
      • 线性:一次方程的线性变换;
      • 回归:任意一个x轴上的点的y轴上的值求平均值构成的整体趋势;
    • 最大似然估计:属于统计学范畴,用来求解样本集的概率密度函数的参数;似然:Likelihood;:来估计m个样本中每条样本出现在正态分布中的概率,相乘起来就是m个样本出现在正态分布中的总似然;
      • 总似然等于所有概率的乘积,我们要获取总似然最小,即获取所有的概率最小,然而概率无解(实际的数据是离散的,数学上的微积分是连续的值),当我们可以找到概率密度相乘最大的时候,就相当于找到了概率相乘最大,所以使用概率密度相乘最小替代概率最小;
      • 根据中心极限定理,假设样本之间是独立事件,误差变量(误差)随机产生,那么就服从正太分布,所以在求总似然的时候使用正太分布;
    • 中心极限定理:属于概率论范畴,指的是大部分同一类事物的随机数据的分布渐近于正态分布,或者叫高斯分布;即事务的数据一般都是收敛的;但是有个条件是:各个样本数据之间是独立的;
    • 真实值与预测值的关系\varepsilon _{i} = y_{i} - \hat{y_{i}},即\varepsilon _{i} = y_{i} - W^{T} \cdot x_{i}
      • \varepsilon:一组误差;
      • y:一组真实值;
      • \hat{y}:一组预测值;
      • 随机变量,样本足够多的情况下,根据中心极限定理,数据服从正态分布;
    • 概率密度函数:用来衡量概率的几张程度的;每一个函数都有其对应的概率密度函数,分为两种:
      • 均匀分布(Uniform Distribution);
      • 正态(高斯)分布(Normal (Gaussian) Distribution),正态分布曲线上的点事该x的概率密度f\left ( x \right ),并非概率;
      • 其他分布...
      • 服从正态分布的概率密度函数为:f\left ( x \right ) = \frac{1}{\sigma \sqrt{2\pi }}e^{-\frac{\left ( x - u \right )^{2}}{2\mu ^{2}}}
    • 线性回归的损失函数的假设:样本独立,样本随机,正态分布;
    • 线性回归问题解决方式:
      • 解析法:直接使用公式:W =\left ( X^{T} \right X )^{-1}X^{T}y 计算W的值,W的值即线性方程系数,亦即模型Model;海量数据不适用;
      • 反复重试法:使用最多的就是梯度下降法(GD);梯度下降法针对的是损失函数的,横坐标是\theta,纵坐标是J\left ( \theta \right )
    • 理解思路:回归问题 → 中心极限定理 → 数据服从正态分布 → 损失函数最小 → 最大似然估计最大 → 概率密度最大 → 概率最大;
    • 深度学习(DL: Deep Learning) 基于机器学习(ML: Machine Learning) 的人工神经网络(ANN: Artificial Neural Network)
    • 梯度下降法(GD):
      • 梯度下降公式:\theta ^{\left ( t+1 \right )} = \theta ^{\left ( t \right )} - \eta \cdot g ,其中\eta是学习率,称为超参(hyper parameter),取值一般比较小;g是损失函数具体一个点的导数;这个公式完全展开如下:\theta _{j}:=\theta _{j}+\eta \cdot \frac{1}{m}\sum_{i=1}^{m}\left ( y^{i}-h_{\theta } x^{i}\right )x_{j}^{i}
      • g在阈值(threshold)以内的时候我们就停止迭代,即近似为0的时候就停止迭代;
      • 梯度下降法的步骤:
        1. 随机获取一个\theta值;
        2. 当前\theta的梯度g(当前点导数,即改点的斜率),求解公式:
        3. 根据梯度下降公式求下一个\thetag是负数,则增大\theta,否则减小\theta
        4. 重复步骤23,直到梯度在阈值以内,如果一直不能到达阈值,说明学习率太大,需要调整超参;
    • 批量梯度下降法(BGD:Batch Gradient Descent):
      • 通过对损失函数求导求得j维度的梯度为:g\left ( \right )=\frac{1}{m}\cdot \left ( x_{j} \right )^{T}\cdot \left ( h^{\theta } \cdot X-y\right )
      • 整体的梯度为:g=\frac{1}{m}\cdot X^{T}\cdot \left ( h^{\theta } \cdot X-y\right )
      • 随着迭代次数的不断增多,学习率不变,梯度的绝对值是不断变小的,所以步长也会随着不断变小;
    • 部分批量梯度下降法(MBGD:Mini-Batch Gradient Descent):
    • 随机梯度下降法(SGD:Stochastic Gradient Descent):
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值