机器学习基础

机器学习(MACHING LEARNING)

一 认识机器学习

定义:为了解决任务T,设计一段程序,从经验E中学习,达到性能度量值P,当且仅当有了经验E后,经过P评判,程序在处理T时的性能得到提升。

二 机器学习分类

在这里插入图片描述

1. 监督学习

定义:训练样本包含对应的标签。比如Titanic数据集中生存与否就是标签。

  • 分类问题:样本标签属于离散变量,比如判断垃圾邮件。
  • 回归问题:样本标签属于连续变量,比如预测房价,预测销售额。

特征:每个样本所包含的多个线索称为特征或维度

1.1 分类问题

在这里插入图片描述
联合概率分布:假设有随机变量X,Y,此时P(X=a and Y=b)用于表示X=a且Y=b的概率。
边缘概率分布:P(X=a)或P(Y=b)这类仅与单个随机变量有关的概率称为边缘概率。
条件概率——事件A在事件B发生的条件下发生的概率。表示为P(A|B),读作A给定B。

条件概率
贝叶斯公式

2. 无监督学习

定义:样本中不包含任何标签。

分类

  • 聚类:用户分群,朋友分组(社交软件),细分市场,异常流量监测。
  • 降维:维度(线索)越多,越能帮助我们判断,但是线索太多可能干扰判断,造成判断速度和准确度降低。

三 机器学习方法三要素

1. 模型

就是要学习的概率分布和决策函数,所有可能的条件概率分布或者决策函数构成的集合,就是模型的假设空间(hypothesis space)。

2. 策略

定义:从假设空间中学习最优模型的方法成为策略。
衡量模型好与不好,需要一些指标,这时候引入损失函数和风险函数来衡量,预测值和真实值通常是不相等的,我们用损失函数(loss function)或者代价函数(cost function)来衡量预测错误的程度,记作L(Y,f(x))。
在这里插入图片描述
损失函数

  • 0-1损失函数
  • 平方损失函数
  • 绝对损失函数
  • 对数损失函数(交叉熵损失函数)

3. 算法

定义:算法是指学习模型时的具体计算方法,求解最优模型,归结为一个最优化问题,统计学习的算法,等价于求解最优化问题的算法也就是求解析解或者数值解。

机器学习算法原理
在这里插入图片描述
在这里插入图片描述

四 梯度下降(Gradient Descent)算法

是一个用来求函数最小值的算法

1. 梯度下降背后的思想

  • 随机选择一个参数的组合(θ₁,θ₂,…)计算代价函数。
  • 然后我们寻找下一个能让代价函数最低的参数组合。
  • 持续这么做直到下一个局部最小值(local mininum)。
    因为我们并没有证实我们所有的参数组合,所以不能确定我们得到的局部最小值是否便是全局最小值(global mininum)。

在单变量函数中,梯度其实就是函数的微分,代表着函数在某个定点的斜率
在这里插入图片描述
运用梯度下降法,关键在于求出代价函数的导数。
在这里插入图片描述
参数更新公式(多变量线性回归)
在这里插入图片描述
在这里插入图片描述

2. 三种梯度下降方法

2.1 批量梯度下降(Batch Gradient Descent)

在这里插入图片描述
在这里插入图片描述
是指载梯度下降的每一步中,我们都用到了所有的训练样本,在梯度下降中,在计算微分时,我们需要进行求和运算,因此得名。

2.2 随机梯度下降(Stochastic Gradient Descent)

随机梯度下降每次用一个样本来梯度下降
在这里插入图片描述

2.3 小批量梯度下降(MiniBatch Gradient Descent)

在这里插入图片描述
MBGD称为小批量梯度下降,每次迭代使用一个以上又不是全部样本。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值