数据分析第七节

机器学习经典案例-手写识别

  1. 手写识别案例
  • 10分类问题
  • 32*32矩阵
  1. 车牌识别,图像识别
    *同样流程进行操作

机器学习三要素

  1. 机器学习模型=模型+策略+算法
  • 模型-寻找参数(决策函数,条件概率分布)
  • 算法-提供求解参数的办法
  • 策略:损失函数
  1. 模型学习参数=模型+策略+算法
  • 模型:决策参数
    • 决策函数0或1
    • 条件函数——按照概率进行输出

如何 构成机器学习

  1. 该问题是否为机器学习
  2. 该问题是机器学习的哪方面–监督无监督,回归分类
  3. 当拿到数据从两方面思考:
  • 数据角度思考:
    1. 分局具备的数据用监督or无监督Or半监督思考
  • 业务角度思考:
    1. 根据业务部门指定的业务方向,整理数据,从而建模
    2. 特征工程:
    • 对特征处理
    • 对数据处理
    1. 数据+选择的算法==模型
    2. 如果有新数据,用模型预测结果

模型选择-泛化性能体现

对于多个模型如何选择

  • 模型的泛化能力:
    1. 欠拟合
    • 模型在训练集和测试值效果都很差
    • 欠拟合出现的场景:模型训练的初期
    • 欠拟合出现的原因 模型过于简单
    • 欠拟合出现的解决办法:增加模型多项式的项;增加多项式的次数
    1. 过拟合
    • 模型在训练集效果很好,测试集效果很差
    • 过拟合出现原因:模型过于复杂,数据不纯,训练的数据过少
    • 过拟合场景:出现数据的中后期
    • 过拟合出现的解决方:增加正则罚项,重新清洗数据,增加数据测试量
    1. 防火防盗防过拟合
    2. 对样本或者特征进行抽样
    3. dropou-随机丢弃一些点
  • 奥卡姆剃刀原则:如果有相同泛化误差的,选择较为简单的模型

机器学习三要素算法补充

  • 数据
  • 算法
  • 策略
    1. 损失函数,目标函数,误差函数
    2. 损失函数越小越好
    3. 损失函数的期望越小越好P(x,y)
    4. 经验损失-平均损失-经验损失最小化
    5. 结构风险-在经验风险基础上增加正则罚项-结构风险最小化
  • 什么是正则项:
    L1+lumba(w)
    L2+lumbar(w)平方

什么是交叉验证?

  1. 简单交叉验证
  • 将数据集切分为:训练集和测试集:7:3;6:4
  1. k则交叉验证
  • 将数据集分为K等份, 其中一份作为测试集,其余数据作为训练集,训练K个模型,得到平均准确率。
  1. 留一模型
  • 特殊的K则交叉验证

为什么机器学习最佳时机

  1. 现在有成熟的机器学习库
  2. 深入学习原理,机器库,解决实际问题
  • 基于Python的sklearn
  • 基于spark的mllib库
  • 基于spark的sparkR
  • 基于Java的Weka
  1. 深度学习库
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值