机器学习(1):绪论

1. 概念

机器学习:在某型任务中(T),利用一些经验(E),提高性能(P)
本质:表示、分类、预测

2.应用

自然语言处理:语音识别、文本挖掘

3. 一般泛型

  • 监督学习
  • 无监督学习
  • 强化学习

4. 统计机器学习—— 函数近似

  • 设置:实例集合X、未知的目标函数f:X -> Y、函数假设集合H={h|h:X -> Y}

  • 给定:目标函数的训练样本{<Xi,Yi>}

  • 确定h属于H,可以最好近似f

  • 学习:H空间上的优化问题,各种目标函数(0-1损失)
    可以采用手段:决策树
    在这里插入图片描述
    在这里插入图片描述
    对每一个样例建立一条从根到叶的路径,但是可能没有泛化能力
    同一个训练集,可以有多棵树与其一致
    贪心:基于最优化某项准则的属性切分示例
    确定特测条件:
    依赖于属性类型:名词性/离散、有序、连续
    依赖于切分的分支个数:两路切分、多路切分

  • 对名词属性的切分:

  • 多路切分:一个离散属性对应一路切分;
    在这里插入图片描述

  • 两路切分:离散属性值被切分为两个子集需要寻找最优切分
    在这里插入图片描述

  • 对连续属性的切分:
    离散化构造有序的类属性:静态,在起始位置一次离散化;动态,范围可以通过等区间或等频率确定,或者是聚类
    二值决策:(A<V)or(A>=V) ,考虑所有可能的切分并选择最好的,计算量可能非常大

  • 停止切分准则
    最理想的是每个子集为“皆为正例”或“皆为反例”
    使用贪心搜索 更倾向结点的数据具有同质类别分布
    要对节点混杂度进行测量
    评价:熵
    在这里插入图片描述
    在这里插入图片描述

在这里插入图片描述
信息增益:
在这里插入图片描述
选择最大增益
缺点:倾向选择具有切分分支多的属性,因为每份可以有很少的样本,但是很纯
在这里插入图片描述

  • 树归纳的停止准则
    当一个结点上所有样本属于同一个类别,停止扩展
    当一个节点上所有样本具有相似属性值,停止扩展
    提早结束
  • 基于决策树的分类
    优点:构建过程计算资源开销小、分类未知的样本速度级快、对于小规模的树比较容易解释、在许多小的简单数据集合上性能与其他方法相似
    缺点:欠拟合、过拟合;特征值丢失

过拟合处理方式:
预剪枝(所有实例属于同一类或者所有属性值相同)
后剪枝:自底向上,用叶节点代替子树

缺少的属性值的处理方式:
缺少影响度量的计算方式,分配方式和分类方式

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值