统计学习方法
文章平均质量分 89
这是个人学习统计学习方法的笔记。统计学习是计算机及其应用领域的一门重要的学科。本书全面系统地介绍了统计学习的主要方法,特别是监督学习方法,包括感知机、k近邻法、朴素贝叶斯法、决策树、逻辑斯谛回归与最大熵模型、支持向量机、提升方法、em算法、隐马尔可夫模型和条件随机场等。
躺平yyds
这个作者很懒,什么都没留下…
展开
-
决策树的预剪枝
决策树的预剪枝优秀的决策树:优秀的决策树不仅对数据具有良好的拟合效果,而且对未知的数据具有良好的泛化能力,优秀的决策树具有以下优点:深度小叶节点少深度小并且叶节点少拟合分为:过拟合和欠拟合过拟合:训练误差低,测试误差大,即对已知训练数据拟合很好,但是未知数据的预测能力不好,训练出来的模型结构一般较复杂。欠拟合:训练误差高,测试误差低,即对已知的训练数据的拟合误差要大于未知数据的,训练出来的模型过于简单。模型的复杂度一般体现在:深度大小和也节点数量,深度小且叶节点少则模型简单,深度原创 2022-05-13 16:33:43 · 4206 阅读 · 1 评论 -
决策树的生成—ID3算法
决策树的生成—ID3算法算法由来:决策树算法最开始是由Hunt Earl B提出的CLS(Concept Learning System),但是没有给出采用什么方法选择最优特征,后面罗斯昆(J. Ross Quinlan)提出ID3算法,使用 [信息增益] 确定最优特征,之后罗斯昆又对ID3算法进行了优化改进,得到 C4.5算法,并用 信息增益比来确定最优特征。两种算法本质是差不多的,只是确定最优特征的方法不同,ID3算法偏向于选择数量较多的某一特征,C4.5算法偏向于某一特征单位数量的选择。ID3原创 2022-05-12 15:27:11 · 2331 阅读 · 0 评论 -
决策树之用信息增益选择最优特征
决策树之用信息增益选择最优特征熵 熵的定义: 熵(shāng),热力学中表征物质状态的参量之一,用符号S表示,其物理意义是体系混乱程度的度量。在决策树中,信息增益是由熵构建而成,表示的是[随机变量的不确定性],不确定性越大,代表着熵越大。随机变量的取值等概率分布时,相应的熵最大,换句话说,特征的所有取值概率相同时,包含的信息是最多的,就是不确定性最大的情况。熵和随机变量的分布相关,所以写成:H(p)=−∑i=1npilogpiH(p)=-\sum_{i=1}^{n} p_{i原创 2022-05-12 10:49:41 · 2620 阅读 · 0 评论 -
决策树一CART算法(第四部分)
决策树一CART算法(第四部分)CART树的剪枝:算法步骤输入:CART算法生成的决策树。输出:最优决策树T设K=0,T=T0K=0,T=T_0K=0,T=T0 ,从完整的决策树出发 k代表迭代次数,先从完整的树开始,即k=0开始。设α=+∞\alpha=+\inftyα=+∞,后面会比较大小,损失函数小则可以剪枝,从大到小比较自下而上地对各内部结点t计其C(Tt),∣Tt∣C(T_t),|T_t|C(Tt),∣Tt∣以及g(t)=C(t)−C(Tt)∣Tt∣−1,α原创 2022-05-11 10:56:33 · 1901 阅读 · 0 评论 -
决策树一一CART算法(第三部分)
决策树一一CART算法(第三部分)CART-回归树模型 如果输出变量是 连续 的,对应的就是 回归 问题,对于决策树而言,输出的信息一定就是叶子结点,所以需要将连续变量按照一定的要求划分。回归树模型 假设将输入空间划分成 M个单元, ,R1,R2,....,RMR_1,R_2,....,R_MR1,R2,....,RM,并在每个单元 上有一个固定的输出值 ,回归树模型可以表示为:f(x)=∑m=1McmI(x∈Rm)f(x)=\sum_{m=1}^{M} c_{m} I\left(原创 2022-05-10 17:51:25 · 997 阅读 · 0 评论 -
决策树一CART算法(第二部分)
CART分类树算法CART分类树算法解读输入:数据集 D,特征集 A,停止条件阈值ϵ\epsilonϵ输出:CART分类决策树步骤:从根节点出发,进行操作,构建操作二叉树计算现有特征下对数据集 基尼指数,选择最优特征。——在特征Ag下,对其可能取的每个值g,根据样本点对Ag=g的测试为“是”我“否”, 将D分制成D1和D2两部分,计算Ag=g时的基尼指数。——选择基尼指数最小的那个值作为该特征下的最优切分点。——计算每个特征下的最优切分点,并比较在最优切分下的每个特征的基尼原创 2022-05-09 21:12:23 · 1129 阅读 · 0 评论 -
决策树一CART算法(第一部分)
决策树一CART算法(第一部分)CART算法简介CART算法是机器学习十大算法之一,这个方法的创始人Leo BreimanCART算法展开就是Classification and Regression Tree,对应的就是分类与回归树,用树 形结构来解决分类和回归的问题。如果输出变量是离散的,对应的就是分类问题。如果输出变量是连续的,对应的就是回归问题。CART算法分为三步走:选择特征、生成决策树、剪枝在CART算法中,树形结构是二叉树模型,通常左边为「是 」,右 边为原创 2022-05-09 15:57:59 · 1943 阅读 · 0 评论