机器学习（1）：绪论

最新推荐文章于 2022-02-22 16:31:34 发布

Zhuanggy

最新推荐文章于 2022-02-22 16:31:34 发布

阅读量176

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/aroura/article/details/107920033

版权

2 篇文章 0 订阅

订阅专栏

1. 概念

机器学习：在某型任务中（T），利用一些经验（E），提高性能（P）
本质：表示、分类、预测

自然语言处理：语音识别、文本挖掘

设置：实例集合X、未知的目标函数f：X -> Y、函数假设集合H={h|h：X -> Y}
给定：目标函数的训练样本{<Xi,Yi>}
确定h属于H，可以最好近似f
学习：H空间上的优化问题，各种目标函数（0-1损失）
可以采用手段：决策树

对每一个样例建立一条从根到叶的路径，但是可能没有泛化能力
同一个训练集，可以有多棵树与其一致
贪心：基于最优化某项准则的属性切分示例
确定特测条件：
依赖于属性类型：名词性/离散、有序、连续
依赖于切分的分支个数：两路切分、多路切分
对名词属性的切分：
多路切分：一个离散属性对应一路切分；
两路切分：离散属性值被切分为两个子集需要寻找最优切分
对连续属性的切分：
离散化构造有序的类属性：静态，在起始位置一次离散化；动态，范围可以通过等区间或等频率确定，或者是聚类
二值决策：(A<V)or(A>=V) ，考虑所有可能的切分并选择最好的，计算量可能非常大
停止切分准则
最理想的是每个子集为“皆为正例”或“皆为反例”
使用贪心搜索更倾向结点的数据具有同质类别分布
要对节点混杂度进行测量
评价：熵

在这里插入图片描述
信息增益：

选择最大增益
缺点：倾向选择具有切分分支多的属性，因为每份可以有很少的样本，但是很纯

树归纳的停止准则
当一个结点上所有样本属于同一个类别，停止扩展
当一个节点上所有样本具有相似属性值，停止扩展
提早结束
基于决策树的分类
优点：构建过程计算资源开销小、分类未知的样本速度级快、对于小规模的树比较容易解释、在许多小的简单数据集合上性能与其他方法相似
缺点：欠拟合、过拟合；特征值丢失

过拟合处理方式：
预剪枝（所有实例属于同一类或者所有属性值相同）
后剪枝：自底向上，用叶节点代替子树

缺少的属性值的处理方式：
缺少影响度量的计算方式，分配方式和分类方式

在这里插入图片描述

关注

专栏目录