自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 决策树之剪枝

本文主要参考李航老师的《统计学习方法》一书,如有不妥之处,欢迎指出。     决策树生成算法递归地产生决策树,直到不能继续下去为止,这样产生的树往往对训练数据的分类很准确,但对为止的测试数据的分类却没有那么准确,即出现过拟合现象。过拟合的原因在与学习时过多地考虑如何提高对训练数据的正确分类,从而构建出过于复杂的决策树,解决这个问题的方法是考虑决策树的复杂度,对已生成的决策树进行简化。    

2017-04-04 19:56:09 2073

原创 决策树之C4.5的生成算法

本文主要参考李航老师的《统计学习方法》一书,如有不妥之处,欢迎指出。     上篇文章介绍了ID3算法,其实C4.5算法与ID3算法相似,C4.5算法对ID3算法进行了改进。相比于ID3是用信息增益来选择特征,C4.5则是利用信息增益比来选择特征。     信息增益比:特征A对于训练数据集D的信息增益比定义为其信息增益g(D,A)与训练数据集D的经验熵H(D)之比:     C4.5

2017-04-04 19:27:38 781

原创 AdaBoost算法

AdaBoost是adaptive boosting(自适应boosting)的缩写,其运行过程如下:训练数据中的每个样本,并赋予其一个权重,这些权重构成了向量D。一开始,这些权重都初始化成相等值。首先在训练数据上训练出一个弱分类器并计算该分类器的错误了,然后再统一数据集上再次训练若分类器。在分类器的第二次训练当中,将会重新调整每个样本的权重,其中第一次分对的样本的权重将会降低,而第一次分错的样本的权重将会提高。为了从所有若分类器中得到最终的分类结果,AdaBoost为每个分类器都分配了一个权重值alpha

2017-04-03 21:56:35 479

原创 决策树之ID3算法

ID3算法的基本原理: ID3算法是采用自上而下构造的决策树进行学习的,其中的关键自然是如何是构建一个决策树。对于决策树构造,我们在每一个分裂节点采用统计测试的方法来确定此分裂分类属性的分类能力。具有最强分类能力的属性将被作为本分类节点的分类属性。然后以此属性将分裂节点的样本分类到此分裂节点所属的分支,在每个分支的节点上形成新的分类样本。然后递归此过程,将分支所得到的分类样本根据以上的方法进行分类直到树生成的截止条件,形成最后具有分类属性的叶子节点。这样就形成了我们所需要的自上而下的构造的决策树,采

2017-04-03 21:07:34 1445 1

原创 隐马尔科夫模型HMM

隐马尔科夫模型的定义;隐马尔科夫模型介绍;HMM作了两个基本假设;HMM训练-模型学习;观测序列概率的前向算法;观测序列概率的后向算法;Baum-Welch算法;

2017-04-01 14:40:08 788

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除