机器学习
加加大了
这个作者很懒,什么都没留下…
展开
-
决策树避免过拟合的方法以及优缺点
1.约束决策树约束决策树可以根据情况来选择或组合(1)设置每个叶子节点的最小样本数,可以避免某个特征类别只适用于极少数的样本。(2)设置每个节点的最小样本数,从根节点开始避免过度拟合。(3)设置树的最大深度,避免无限往下划分。(4)设置叶子节点的最大数量,避免出现无限多次划分类别。(5)设置评估分割数据是的最大特征数量,避免每次都考虑所有特征为求“最佳”,而采取随机选择的方式避免过度拟合。2.剪枝对每个节点或子树进行裁剪,适用算法评估裁剪前后决策树模型对数据的预测能力是否降低,若没有降低原创 2020-06-05 18:21:00 · 6970 阅读 · 0 评论 -
基于基尼指数的决策树特征选择算法(CART)及其python实现
基于基尼指数的决策树特征选择算法(CART)及其python实现基尼指数与信息增益和增益率类似,基尼指数是另外一种度量指标,由CART决策树使用,其定义如下:对于二类分类问题,若样本属于正类的概率为 p,则基尼指数为:对于给定的样本集合D,其基尼指数定义为:其中Ck是D中属于第k类的样本子集。如果样本集合D被某个特征A是否取某个值分成两个样本集合D1和D2,则在特征A的条件下,集合D的基尼指数定义为:基尼指数Gini(D)反应的是集合D的不确定程度,跟熵的含义相似。Gini(D,A)反原创 2020-06-05 18:05:25 · 9263 阅读 · 0 评论 -
基于信息增益率的决策树特征选择算法(C4.5)及其python实现
基于信息增益率的决策树算法(C4.5)及其python实现信息增益率信息增益可以很好的度量特征信息量,但却在某些情况下有一些弊端,举一个例子说明。比如对于编号这个特征,我们知道一般编号值都是各不相同的,因此有多少个编号就需要分为多少类。由于每一个分类中只有一个编号值,即纯度已经最大,所以导致编号这个特征的信息增益最大,而实际上它并不是最优的特征,这样选择决策树也显然不具备泛化能力。这正是信息增益的一个弊端:对可取值数目较多的属性有所偏好。因为信息增益反映的是给定一个条件以后不确定性减少的程度,必然是原创 2020-06-05 17:53:33 · 4195 阅读 · 0 评论 -
基于信息增益的决策树特征选择算法(ID3算法)及python实现
基于信息增益的决策树算法(ID3算法)及python实现决策树概述不同于逻辑回归,决策树属于非线性模型,可以用于分类,也可用于回归。它是一种树形结构,可以认为是if-then规则的集合,是以实例为基础的归纳学习。基本思想是自顶向下,以信息增益(或信息增益比,基尼系数等)为度量构建一颗度量标准下降最快的树,每个内部节点代表一个属性的测试,直到叶子节点处只剩下同一类别的样本。它的决策流程如下所示:决策树的学习包括三个重要的步骤,特征选择,决策树的生成以及决策树的剪枝。特征选择:常用的特征选择有信息增原创 2020-06-05 17:45:39 · 6304 阅读 · 0 评论 -
决策树特征选择算法介绍
1.目的:为了让模型的不确定性降低的越快越好2.三个过程:特征选择、决策树的生成、决策树的剪枝(1)特征选择:信息熵:随机变量不确定性的度量H(X)=?∑ni=1pilogpiH(X)=?∑i=1npilogpi信息增益:(ID3算法),得知特征X的信息而使类Y的信息的不确定减少的程度g(D,A)=H(D)?H(D|A)g(D,A)=H(D)?H(D|A)information gain作为划分训练数据集的特征,存在偏向于选择取值较多的特征问题。(对于取值多的属性如连续型数值,这个单独的属性原创 2020-05-16 17:58:54 · 3257 阅读 · 1 评论 -
数据属性的类型
数据属性的类型原文:https://blog.csdn.net/qq_33457248/article/details/79594782数据集由数据对象组成,一个数据对象代表一个实体。数据对象又称样本、实例、数据点或对象。属性(attribute)是一个数据字段,表示数据对象的一个特征。属性向量(或特征向量)是用来描述一个给定对象的一组属性。属性有不同类型:标称属性(nominal attribute)、二元属性(binary attribute)、序数属性(ordinal attribute)、 数值转载 2020-05-16 17:55:47 · 2297 阅读 · 0 评论 -
随机森林特征选择、融合和集成策略
随机森林特征选择、融合和集成策略:结合多种形态学MRI手段,对健康老年人、MCI、cMCI和阿尔茨海默病患者进行鉴别:来自阿尔茨海默病神经成像倡议(ADNI)数据库摘要:背景:在计算机辅助诊断各种脑疾病的时代,阿尔茨海默病(AD)在神经影像学研究中占有很大的比重,其主要范围是在日常实践中的应用。然而,还没有研究试图同时区分健康对照组(HC)、早期轻度认知障碍(MCI)、晚期MCI (cMCI)和稳定型AD,使用来自单一模式的特征,即MRI。新方法:基于神经成像挑战组织者提供的预处理MRI图像,我们试图原创 2020-05-16 17:52:19 · 3940 阅读 · 2 评论 -
Relief特征选择算法
Relief特征选择算法Relief算法最早由Kira提出,最初局限于两类数据的分类问题。Relief算法是一种特征权重算法(Feature weighting algorithms),根据各个特征和类别的相关性赋予特征不同的权重,权重小于某个阈值的特征将被移除。Relief算法中特征和类别的相关性是基于特征对近距离样本的区分能力。算法从训练集D中随机选择一个样本R,然后从和R同类的样本中寻找最近邻样本H,称为Near Hit,从和R不同类的样本中寻找最近邻样本M,称为NearMiss,然后根据以下规则更原创 2020-05-16 17:45:07 · 3458 阅读 · 5 评论 -
决策树构造过程
决策树构造过程决策树的基本概念我们这里介绍一下一个比较简单的机器学习系统----决策树. 它的概念最容易理解, 因为人类的许多决策实际上就是一个决策树.通常使用的分类回归树(class and regress tree)是一个二叉树。它的形式一般为:每个方框代表一个节点. 每个非叶子节点有2个分支, 一个是判定True, 一个判定False. 分别走两个不同的分支. 叶子节点具有决策权. 任何一个输入从root出发, 总是会达到且唯一到达一个叶子节点. 这就是决策树的工作原理。决策树有两种节点:原创 2020-05-16 17:37:37 · 4483 阅读 · 0 评论