机器学习基础内容
机器学习的定义
为了解决任务T,设计一段程序,从经验E中学习,达到性能度量值P,当且仅当有了经验E后,经过P评判没程序在处理T时的性能得到提升
机器学习的分类
1.有监督学习 (带答案数据):回归 ,分类
2.无监督学习 (无答案数据):聚类,降维
3.强化学习 :有模型学习,无模型学习
分类问题
样本标签属于离散变量,比如判断垃圾邮件,肿瘤检测
回归问题
样本标签属于连续变量,比如预测房价,预测销售额
连续变量
可以任意取值的变量
例如:生产零件的规格尺寸,体测的身高,体重,胸围等
离散变量
非数值型变量
例如:性别,教育程度,学校,职称,可以把变量通过转换变成自然数
分类问题
1.生成模型(概率模型)
先从总体提取特征模型学习一个决策边界,然后从个体提取特征放到模型里进行判断
2.判别模型(非概率模型)
分别学习出两个模型,再从样本提取的模型特征放到这两个模型中查看占比,哪个概率大就是哪种
条件概率
事件A在事件B发生的条件下发生的概率
常用的交流标识
机器学习方法的三要素
1.模型
学习的概率分布或决策函数,所有可能的条件概率分布或者决策函数
构成的集合就是概率模型的假设空间
2.策略
从假设空间中学习最优的模型方法,称为策略
衡量模型好不好的指标------->损失函数(风险函数)或者代价函数
用来度量预测错误的程度,记作 L(Y,f(x))
1)0-1损失函数
2)平分损失函数
3)绝对损失函数
4)对数损失函数(交叉熵损失函数)
3.算法
学习模型时的具体算法,求解最优模型归结为一个最优化问题,统计学习
的算法等价于求解最优化问题的算法,也就是求解析解或者数值解
4.评估
线性回归
损失函数
梯度下降算法
1.随机选择一个参数组合,计算代价函数
2.寻找下一个能让代价函数值最低的参数组合
3.持续这么做直到一个局部最小值
单变量函数中,梯度就是函数的微分,代表函数某个给定点切线的斜率
求出代价函数的导数
BGD:批量梯度下降:下降的每一步采用所有数据来梯度下降
SGD:随机梯度下降法:每次用一个样本梯度下降
优点:训练速度快,对于准确度来说,可能得到局部最小值
缺点:迭代的方向变化很大,不能很快的收敛到局部最优解
MBGD:小批量梯度下降
优点:使用多个样本相比SGD提高梯度估计的精度
缺点:每次梯度估计的方向不确定
Mini-batch大小的选择通常用Z的幂数,可以获取更少的运行时间
使用梯度下降求极值时,涉及哪几个部分
1.算法的步长选择
2.算法参观的初始值选择(凸函数一定有最优解)
3.归一化
标准化