机器学习浅谈

最新推荐文章于 2022-07-02 19:16:10 发布

qq_43620696

最新推荐文章于 2022-07-02 19:16:10 发布

阅读量138

点赞数

分类专栏：机器学习之决策树文章标签：机器学习

本文链接：https://blog.csdn.net/qq_43620696/article/details/84666754

版权

2 篇文章 0 订阅

订阅专栏

浅谈机器学习与决策树

机器学习简介
机器学习 (Machine Learning) 是近 20 多年兴起的一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。简而言之，机器学习就是把无序的数据转换成有用的信息。
机器学习的主要任务就是分类。另一项任务是回归，主要用于预测数值型数据。

常用术语
①特征（属性）
②训练集：用于训练机器学习算法的数据样本集合。
目标变量：机器学习算法的预测结果。
训练样本集必须确定知道目标变量的值，以便机器学习算法可以发现特征和目标向量之间的关系。

学习方式
㈠监督学习――分类，回归。
这类算法必须知道目标变量的分类信息。
㈡无监督学习――聚类，密度估计。
数据没有类别信息，也不会给定目标值。
聚类：将数据集合分成由类似的对象组成的多个类的过程。
密度估计：寻找描述数据统计值的过程。

监督学习的用途
k-近邻算法，线性回归，朴素贝叶斯算法，局部加权线性回归，支持向量机，Ridge回归，决策树，Lasso最小回归系数估计
无监督学习的用途
K-均值，最大期望算法，DBSCAN，Parzen窗设计

机器学习算法分类
判别模型：感知机，k近邻法，决策树，逻辑斯谛回归与最大熵模型，支持向量机，提升方法，条件随机场
生成模型：朴素贝叶斯法，隐马尔可夫模型

开发机器学习应用程序的步骤
㈠收集数据（制作网络爬虫从网站上抽取数据，从RSS反馈，API中得到信息，设备发送过来的实测数据）
㈡准备输入数据。
㈢分析输入数据。
㈣训练数据。
㈤测试数据。
㈥使用算法。

决策树
学习步骤：
①特征选择――信息增益，信息增益比
②决策树的生成――ID3算法（用信息增益最大的特征作为结点的特征，可能出现过拟合），C4.5算法（用信息增益比来选择特征）
③决策树的修剪

决策树算法以树状结构表示数据分类的结果。
叶子节点：代表分类后所获得的分类标记。
非叶子节点（决策点）：特征属性，及其对应输出，按照输出选择分支
决策过程：从根节点出发，根据数据的各个属性，计算结果，选择对应的输出分支，直到到达叶子节点，得到结果
构建决策树

分裂属性的选择算法
信息增益（Information gain）
信息增益比（Information gain
ratio）
基尼指数（Gini index）

信息增益（Information Gain）
表示得知特征X的信息而使得类Y的信息的不确定性减少的程度。
典型算法：ID3
核心：在决策树各个结点上应用信息增益准则选择特征，递归地构建决策树。

缺点：此公式偏向数据量多的属性，如果样本分布不均，则会导致过拟合。假如上述例子中包括人名属性，每个人名均不同，显然以此属性作为划分，信息增益最高，但是，很明显，以此属性作为划分毫无意义。

信息增益比（Information gain ratio）
算法：C4.5的生成算法。

基尼指数（Gini index）
典型算法：CART

关注