机器学习(MACHING LEARNING)
一 认识机器学习
定义:为了解决任务T,设计一段程序,从经验E中学习,达到性能度量值P,当且仅当有了经验E后,经过P评判,程序在处理T时的性能得到提升。
二 机器学习分类
1. 监督学习
定义:训练样本包含对应的标签。比如Titanic数据集中生存与否就是标签。
- 分类问题:样本标签属于离散变量,比如判断垃圾邮件。
- 回归问题:样本标签属于连续变量,比如预测房价,预测销售额。
特征:每个样本所包含的多个线索称为特征或维度
1.1 分类问题
联合概率分布:假设有随机变量X,Y,此时P(X=a and Y=b)用于表示X=a且Y=b的概率。
边缘概率分布:P(X=a)或P(Y=b)这类仅与单个随机变量有关的概率称为边缘概率。
条件概率——事件A在事件B发生的条件下发生的概率。表示为P(A|B),读作A给定B。
2. 无监督学习
定义:样本中不包含任何标签。
分类
- 聚类:用户分群,朋友分组(社交软件),细分市场,异常流量监测。
- 降维:维度(线索)越多,越能帮助我们判断,但是线索太多可能干扰判断,造成判断速度和准确度降低。
三 机器学习方法三要素
1. 模型
就是要学习的概率分布和决策函数,所有可能的条件概率分布或者决策函数构成的集合,就是模型的假设空间(hypothesis space)。
2. 策略
定义:从假设空间中学习最优模型的方法成为策略。
衡量模型好与不好,需要一些指标,这时候引入损失函数和风险函数来衡量,预测值和真实值通常是不相等的,我们用损失函数(loss function)或者代价函数(cost function)来衡量预测错误的程度,记作L(Y,f(x))。
损失函数
- 0-1损失函数
- 平方损失函数
- 绝对损失函数
- 对数损失函数(交叉熵损失函数)
3. 算法
定义:算法是指学习模型时的具体计算方法,求解最优模型,归结为一个最优化问题,统计学习的算法,等价于求解最优化问题的算法也就是求解析解或者数值解。
机器学习算法原理:
四 梯度下降(Gradient Descent)算法
是一个用来求函数最小值的算法
1. 梯度下降背后的思想
- 随机选择一个参数的组合(θ₁,θ₂,…)计算代价函数。
- 然后我们寻找下一个能让代价函数最低的参数组合。
- 持续这么做直到下一个局部最小值(local mininum)。
因为我们并没有证实我们所有的参数组合,所以不能确定我们得到的局部最小值是否便是全局最小值(global mininum)。
在单变量函数中,梯度其实就是函数的微分,代表着函数在某个定点的斜率
运用梯度下降法,关键在于求出代价函数的导数。
参数更新公式(多变量线性回归)
2. 三种梯度下降方法
2.1 批量梯度下降(Batch Gradient Descent)
是指载梯度下降的每一步中,我们都用到了所有的训练样本,在梯度下降中,在计算微分时,我们需要进行求和运算,因此得名。
2.2 随机梯度下降(Stochastic Gradient Descent)
随机梯度下降每次用一个样本来梯度下降
2.3 小批量梯度下降(MiniBatch Gradient Descent)
MBGD称为小批量梯度下降,每次迭代使用一个以上又不是全部样本。