统计学习方法_躺平yyds的博客-CSDN博客

统计学习方法

关注

文章平均质量分 89

这是个人学习统计学习方法的笔记。统计学习是计算机及其应用领域的一门重要的学科。本书全面系统地介绍了统计学习的主要方法，特别是监督学习方法，包括感知机、k近邻法、朴素贝叶斯法、决策树、逻辑斯谛回归与最大熵模型、支持向量机、提升方法、em算法、隐马尔可夫模型和条件随机场等。

关注数：文章数：7 文章阅读量：15951 文章收藏量：166

作者: 躺平yyds

这个作者很懒，什么都没留下…

展开

决策树的预剪枝

决策树的预剪枝优秀的决策树：优秀的决策树不仅对数据具有良好的拟合效果，而且对未知的数据具有良好的泛化能力，优秀的决策树具有以下优点：深度小叶节点少深度小并且叶节点少拟合分为：过拟合和欠拟合过拟合：训练误差低，测试误差大，即对已知训练数据拟合很好，但是未知数据的预测能力不好，训练出来的模型结构一般较复杂。欠拟合：训练误差高，测试误差低，即对已知的训练数据的拟合误差要大于未知数据的，训练出来的模型过于简单。模型的复杂度一般体现在：深度大小和也节点数量，深度小且叶节点少则模型简单，深度

原创 2022-05-13 16:33:43 · 4313 阅读 · 1 评论
决策树的生成—ID3算法

决策树的生成—ID3算法算法由来：决策树算法最开始是由Hunt Earl B提出的CLS(Concept Learning System)，但是没有给出采用什么方法选择最优特征，后面罗斯昆（J. Ross Quinlan）提出ID3算法，使用 [信息增益] 确定最优特征，之后罗斯昆又对ID3算法进行了优化改进，得到 C4.5算法，并用信息增益比来确定最优特征。两种算法本质是差不多的，只是确定最优特征的方法不同，ID3算法偏向于选择数量较多的某一特征，C4.5算法偏向于某一特征单位数量的选择。ID3

原创 2022-05-12 15:27:11 · 2459 阅读 · 0 评论
决策树之用信息增益选择最优特征

决策树之用信息增益选择最优特征熵熵的定义: 熵（shāng），热力学中表征物质状态的参量之一，用符号S表示，其物理意义是体系混乱程度的度量。在决策树中，信息增益是由熵构建而成，表示的是[随机变量的不确定性]，不确定性越大，代表着熵越大。随机变量的取值等概率分布时，相应的熵最大，换句话说，特征的所有取值概率相同时，包含的信息是最多的，就是不确定性最大的情况。熵和随机变量的分布相关，所以写成：H(p)=−∑i=1npilog⁡piH(p)=-\sum_{i=1}^{n} p_{i

原创 2022-05-12 10:49:41 · 2878 阅读 · 0 评论
决策树一CART算法（第四部分）

决策树一CART算法(第四部分)CART树的剪枝：算法步骤输入：CART算法生成的决策树。输出：最优决策树T设K=0，T=T0K=0，T=T_0K=0，T=T0 ，从完整的决策树出发 k代表迭代次数，先从完整的树开始，即k=0开始。设α=+∞\alpha=+\inftyα=+∞，后面会比较大小，损失函数小则可以剪枝，从大到小比较自下而上地对各内部结点t计其C(Tt),∣Tt∣C(T_t),|T_t|C(Tt),∣Tt∣以及g(t)=C(t)−C(Tt)∣Tt∣−1,α

原创 2022-05-11 10:56:33 · 1993 阅读 · 0 评论
决策树一一CART算法（第三部分）

决策树一一CART算法（第三部分）CART-回归树模型如果输出变量是连续的，对应的就是回归问题，对于决策树而言，输出的信息一定就是叶子结点，所以需要将连续变量按照一定的要求划分。回归树模型假设将输入空间划分成 M个单元，，R1,R2,....,RMR_1,R_2,....,R_MR1,R2,....,RM，并在每个单元上有一个固定的输出值，回归树模型可以表示为：f(x)=∑m=1McmI(x∈Rm)f(x)=\sum_{m=1}^{M} c_{m} I\left(

原创 2022-05-10 17:51:25 · 1076 阅读 · 0 评论
决策树一CART算法（第二部分）

CART分类树算法CART分类树算法解读输入：数据集 D，特征集 A，停止条件阈值ϵ\epsilonϵ输出：CART分类决策树步骤：从根节点出发，进行操作，构建操作二叉树计算现有特征下对数据集基尼指数，选择最优特征。——在特征Ag下，对其可能取的每个值g,根据样本点对Ag=g的测试为“是”我“否”，将D分制成D1和D2两部分，计算Ag=g时的基尼指数。——选择基尼指数最小的那个值作为该特征下的最优切分点。——计算每个特征下的最优切分点，并比较在最优切分下的每个特征的基尼

原创 2022-05-09 21:12:23 · 1232 阅读 · 0 评论
决策树一CART算法(第一部分)

决策树一CART算法(第一部分)CART算法简介CART算法是机器学习十大算法之一，这个方法的创始人Leo BreimanCART算法展开就是Classification and Regression Tree，对应的就是分类与回归树，用树形结构来解决分类和回归的问题。如果输出变量是离散的，对应的就是分类问题。如果输出变量是连续的，对应的就是回归问题。CART算法分为三步走：选择特征、生成决策树、剪枝在CART算法中，树形结构是二叉树模型，通常左边为「是」，右边为

原创 2022-05-09 15:57:59 · 2000 阅读 · 0 评论

统计学习方法

作者: 躺平yyds

决策树的预剪枝

决策树的生成—ID3算法

决策树之用信息增益选择最优特征

决策树一CART算法（第四部分）

决策树一一CART算法（第三部分）

决策树一CART算法（第二部分）

决策树一CART算法(第一部分)