机器学习之决策树

最新推荐文章于 2024-08-27 17:27:28 发布

hailongzhang26

最新推荐文章于 2024-08-27 17:27:28 发布

阅读量321

点赞数

分类专栏：机器学习入门笔记文章标签：决策树 CART 随机森林 Adaboost x信息增益

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hailongzhang26/article/details/91041484

版权

机器学习入门笔记专栏收录该内容

4 篇文章 0 订阅

订阅专栏

优点

具有可读性，分类速度快。

步骤

特征选择，决策树的生成，决策树的修剪

结构

决策树是由有向边和结点组成。结点分内部结点（一个特征或属性），叶结点（表示一个类）。

特征选择

熵 H(Y)：表示随机变量不确定性的度量。

熵越大，随机变量的不确定性就越大。
比如数据样本里面说方言特征（80%四川话，20%普通话），饮食特征（20%吃辣，20%吃甜，30%吃酸，30%吃麻），饮食特征的不确定性越大，其熵值就大。

条件熵 H(Y|X)：在已知随机变量X 的条件下随机变量Y 的不确定性。

经验熵 H(D)，经验条件熵 H(D|A)：当熵和条件熵中的概率由数据估计得到时，就叫经验熵，经验条件熵。

我们在让机器学习的时候用的训练集，得到的就是经验熵H(D)，经验条件熵H(D|A)。
在决策树中经验熵和熵，经验条件熵和条件熵是等价的。

信息增益 g(D,A)：得知特征X 的信息而使得 Y的信息的不确定性减少的程度。

比如说，他四川话（方言特征X1）说得很好80%是四川人Y1（10%重庆Y2，10%云南Y3），他很能吃辣（饮食特征X2）30%是四川人Y1（20%湖南，20%重庆，20%江西，10%云南），那么方言特征对Y的信息不确定性减少的程度就比饮食特征对Y的信息不确定性减少的程度更大。（也就是说方言比吃辣这个特性更有助于我们判断Y他是哪里人）
特征A对训练数据集D的信息增益值：g(D,A) = H(D) - H(D|A)

信息增益比 gk(D,A) = g(D,A) / H(D)

信息增益是相对于训练数据集而言的，训练集的经验熵如果偏大，会导致信息增益值偏大，反之偏小。信息增益比纠正了这一问题。

决策树的生成

ID3算法

输入：训练数据集D，特征集A，阀值a；
输出：决策树T。

计算A中各特征对D的信息增益，选值最大的特征Ag；
Ag > a，对Ag的每一可能值xi，依照Ag = xi 将D分割为若干非空子集Di，将Di中实例数最大的类作为标记，构建子结点，由结点及其子结点构成树T，返回T；直到Ag < a。
对第 i 个子结点，以Di为训练集，以A-{Ag}为特征集，递归地调用上面两步。

该算法是树结构的最初思想，该方法容易过拟合。所以下面每出现一种算法，就是一次问题的解决。

C4.5算法

改进了ID3算法，把信息增益替换为信息增益比用来进行特征选择。

ID3算法只能处理离散型变量
C4.5算法可以处理连续型变量

决策树的剪枝

从已生成的树上裁掉一些子树或叶结点，并将其根结点或父结点作为新的叶结点，从而简化分类树模型。

CART（分类与回归树）

可以处理分类和回归问题，可以处理连续型变量。
分类树：DecisionTreeClassifier
回归树：DecisionTreeRegressor

基于最大基尼指数。
在给定输入随机变量X条件下输出随机变量Y的条件概率分布的学习方法。

随机森林（Random Forest）

随机：对样本和特征进行随机抽取
森林：多棵树

回归树算法有高方差的缺点
平均多个模型的预测，也叫Bagging，可以降低模型方差。

随机森林通过随机选择（自助法）一部分特征，样本。计算每个样本的回归树算法的均值，事实证明一定程度上减少了方差，但是这并不好解释。所以随机森林牺牲了回归树的可解释性。

AdaBoost算法

提升方法：在分类问题中，它通过改变训练样本的权重，学习多个分类器，并将这些分类器进行线性组合，提高分类的性能。

后面会讲到 XGBoost 这个非常重要的算法，曾经在kaggle项目中有着独孤求败的地位，至今也常被运用。内容很多，我会单独详细的讲。

提高那些被前一轮弱分类器错误分类样本的权值（使其受到更大关注），降低那些被正确分类样本的权值。
加大分类误差率小的弱分类器的权值，使其在表决中起较大的作用，减小误差率大的弱分类器的权值，使其在表决中起较小的作用。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

hailongzhang26 CSDN认证博客专家 CSDN认证企业博客

码龄5年

6: 原创

112万+: 周排名

195万+: 总排名

8213: 访问

: 等级

154: 积分

7: 粉丝

12: 获赞

16: 评论

27: 收藏

私信

关注

热门文章

分类专栏

最新评论

bert4keras模型转onnx
源代码杀手: 记录一下： python -m tf2onnx.convert --saved-model .\model_path\generate_model_tf --output generate_simbert.onnx --opset 13 2022-12-31 14:28:58.820069: I tensorflow/stream_executor/platform/default/dso_loader.cc:53] Successfully opened dynamic library cudart64_110.dll D:\Anaconda3\envs\py36\lib\runpy.py:125: RuntimeWarning: 'tf2onnx.convert' found in sys.modules after import of package 'tf2onnx', but prior to execution of 'tf2onnx.convert'; this may result in unpredictable behaviour warn(RuntimeWarning(msg)) 2022-12-31 14:29:00.986324: I tensorflow/stream_executor/platform/default/dso_loader.cc:53] Successfully opened dynamic library nvcuda.dll 2022-12-31 14:29:01.016570: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1733] Found device 0 with properties: pciBusID: 0000:01:00.0 name: NVIDIA GeForce GTX 1650 Ti computeCapability: 7.5 coreClock: 1.485GHz coreCount: 16 deviceMemorySize: 4.00GiB deviceMemoryBandwidth: 178.84GiB/s 2022-12-31 14:29:01.016850: I tensorflow/stream_executor
bert4keras模型转onnx
源代码杀手: 2022-12-31 14:29:36.267868: I tensorflow/core/grappler/optimizers/meta_optimizer.cc:1144] Optimization results for grappler item: graph_to_optimize constant_folding: Graph size after: 5109 nodes (-691), 7878 edges (-766), time = 9720.63477ms. function_optimizer: function_optimizer did nothing. time = 52.447ms. constant_folding: Graph size after: 5109 nodes (0), 7878 edges (0), time = 1114.88696ms. function_optimizer: function_optimizer did nothing. time = 67.862ms. 2022-12-31 14:29:41,076 - INFO - Using tensorflow=2.5.0, onnx=1.9.0, tf2onnx=1.9.1/8e8c23 2022-12-31 14:29:41,076 - INFO - Using opset <onnx, 13> 2022-12-31 14:29:55,495 - INFO - Computed 0 values for constant folding 2022-12-31 14:30:44,805 - INFO - Optimizing ONNX model 2022-12-31 14:31:23,527 - INFO - After optimization: Cast -256 (577->321), Concat -168 (340->172), Const -3968 (4224->256), Gather -49 (148->99), GlobalAveragePool +52 (0->52), GlobalMaxPool +1 (0->1), Identity -169 (169->0), Reduce Max -1 (1->0),
bert4keras模型转onnx
源代码杀手: [code=objc] python -m tf2onnx.convert --saved-model .\model_path\generate_model_tf --output generate_simbert.onnx --opset 13 2022-12-31 14:28:58.820069: I tensorflow/stream_executor/platform/default/dso_loader.cc:53] Successfully opened dynamic library cudart64_110.dll D:\Anaconda3\envs\py36\lib\runpy.py:125: RuntimeWarning: 'tf2onnx.convert' found in sys.modules after import of package 'tf2onnx', but prior to execution of 'tf2onnx.convert'; this may result in unpredictable behaviour warn(RuntimeWarning(msg)) 2022-12-31 14:29:00.986324: I tensorflow/stream_executor/platform/default/dso_loader.cc:53] Successfully opened dynamic library nvcuda.dll 2022-12-31 14:29:01.016570: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1733] Found device 0 with properties: pciBusID: 0000:01:00.0 name: NVIDIA GeForce GTX 1650 Ti computeCapability: 7.5 coreClock: 1.485GHz coreCount: 16 deviceMemorySize: 4.00GiB deviceMemoryBandwidth: 178.84GiB/s 2022-12-31 14:29:01.016850: I tensorflow/st [/code]
bert4keras模型转onnx
源代码杀手: 转完后模型反而变大，不转也罢
bert4keras模型转onnx
hailongzhang26: bert_input_process是bert源码里面整理出来的，tokenization源码里面有这个文件，bert4keras里面的tokenization作者有优化，可以看看他的源码。都不难。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。