![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
决策树
文章平均质量分 54
qq_23617681
这个作者很懒,什么都没留下…
展开
-
python依赖包numpy、scipy、scikit-learn运行冲突解决方案
在运行python的decision tree时,由于.py文件开头引入了sklearn包(见下表),导致运行错误。import numpy as npimport scipy as spfrom sklearn import treefrom sklearn.metrics import precision_recall_curvefrom sklearn.metrics impor原创 2016-04-01 17:14:50 · 6942 阅读 · 0 评论 -
决策树中基本概念——香农熵
在学习决策树时,最重要的步骤是构建决策树。其中,最重要的步骤是根据属性划分数据集,其中先使用哪个属性,后使用哪个属性,是决定决策树构建的好坏的重要标准。其中,使用属性构建数据集,最重要的参考标准,就是使划分后的信息增益最大。这里就使用到一个概念:信息熵。熵:表示随机变量不确定性,即混乱程度的量化指标。熵越大,不确定性越大,越无序;越小,确定性越大,越有序。同原创 2016-04-08 10:36:53 · 5622 阅读 · 0 评论 -
决策树中ID3、C4.5、CART
决策树中最初的算法是ID3,然后是C4.5,再之后是CART。下面分别介绍其优缺点:ID3:基本思想:决策树构建最初最经典的算法。利用信息增益选择特征向量,构建决策树。优点:1、原理简单易懂,需要了解信息熵是表示样本无序的度量方式。2、构造出的决策树能够存储在磁盘中,再次分类时,可以直接调用,无序再次构造。缺点:1、容易造成过度拟合。2、只能处理boolea原创 2016-04-12 15:08:19 · 528 阅读 · 0 评论 -
python编程实践小结2016-04-11
本文小结最近python编程中解决的几个问题。这些问题大部分是不同版本python的函数差异。列表:1、python的对象序列化模块是pickle.2、读写文件过程中,主要读写的方式'w'、'wb','r'、'rb',不同版本python的函数对参数的要求不同。3、函数isinstance(secondDict[key], dict) 作用等价于type(secondD原创 2016-04-11 12:01:38 · 448 阅读 · 0 评论 -
机器学习中过拟合问题分析及解决方法
机器学习中过拟合问题分析及解决方法表现:在训练集上的误差特别小,在测试集上的误差特别大。 原因:模型过于复杂,过分拟合数据噪声和outliers(离群值). 解决方法: 1、正则化。模型中添加先验知识,降低模型复杂度,降低噪声和离群值outliers的扰动影响。 举例1:抛硬币,推荐正面朝上的概率。如果抛五次结果都是正面朝上,得出结果正面朝上的概率是1——过拟合。原创 2016-05-20 22:31:00 · 2201 阅读 · 0 评论