基尼系数与熵

最新推荐文章于 2024-08-15 14:40:15 发布

weixin_41609899

最新推荐文章于 2024-08-15 14:40:15 发布

阅读量4.4k

点赞数

本文链接：https://blog.csdn.net/weixin_41609899/article/details/79101532

版权

在分类问题中，假设有K个类，样本点属于第k类的概率是Pk，则概率分布的基尼系数定义为:

基尼指数

从公式看就是被分对的概率乘以被分错的概率，然后整个的和就是基尼系数。

例如一个随机事件X ，P(X=0) = 0.5 ,P(X=1)=0.5

那么基尼不纯度就为 P(X=0)*(1 - P(X=0)) + P(X=1)*(1 - P(X=1)) = 0.5

一个随机事件Y ，P(Y=0) = 0.1 ,P(Y=1)=0.9

那么基尼不纯度就为P(Y=0)*(1 - P(Y=0)) + P(Y=1)*(1 - P(Y=1)) = 0.18

很明显 X比Y更混乱，因为两个都为0.5 很难判断哪个发生。而Y就确定得多，Y=0发生的概率很大。而基尼不纯度也就越小。

计算熵：熵越高，混合的数据也越多

一个系统越是有序，信息熵就越低；反之，一个系统越是混乱，信息熵就越高。

信息熵计算公式是：H(x)=E[I(xi)]=E[ log(1/p(xi)) ]=-∑p(xi)log(p(xi))(i=1,2,..n)。

如果样本具有二元输出属性，其熵的公式为

Entropy(S)=-(p+)*log(p+)-(p-)*log(p-)

其中，p+、p-分别为正例和负例占总记录的比例。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_41609899

关注关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

基尼系数和信息熵的概念和公式

lzj50002801的博客

09-26

2679

一、GINI系数（基尼系数）衡量数据的不纯度或者不确定性。值越大样本集合的不确定性也越大。 G=1−∑i=1kp12 G= 1-\sum_{i=1}^kp1^2 G=1−i=1∑kp12 GINI指标：取值范围（0-0.5）基于GINI指标的算法：Cart 二、INFO (信息熵) 信息熵：对信息的量化度量，反映信息所携带的信息量大小。基于INFO指标的算法：ID3、C4.5。信息增益增益率指标（C4.5）错误率（取值范围：0.5-1） ...

基尼系数 java_信息熵和基尼系数.ipynb

weixin_34504277的博客

03-02

4397

{"cells": [{"cell_type": "code","execution_count": 2,"metadata": {},"outputs": [{"data": {"text/html": ["\n","\n"," .dataframe tbody tr th:only-of-type {\n"," vertical-align: middle;\n"," ...

参与评论您还未登录，请先登录后发表或查看评论

熵和基尼系数

l275940071的博客

04-19

4377

CART Classification & Regression Tree1.熵（entropy）熵是表示随机变量不确定性的度量。设XX是一个取有限个值的离散随机变量，其概率分布为对于一个取有限个值的随机变量X，如果其概率分布为： P(X=xi)=pi,i=1,2,⋯,n那么随机变量X的熵可以用以下公式描述： H(X)=−∑i=1npilog...

基尼指数详细解释

热门推荐

kakazai.cn

06-19

2万+

一、基尼系数是什么？1)定义下面是摘自李航《统计学习方法》中基尼系数的定义，非常清晰。2)基尼系数有什么意义？我们可以先来看一组数据X的取值方案一方案二方案三方案四 P的平方方案一方案二方案三方案四类别一 0.9 0.5 0.4 0.2 p1^2 0.81 0.25 0.16 0.04类别二 0.1 0.5 0.3 0.2 p2^2 0.01 0.25 0.09 0...

熵（Entropy）、信息熵增益、信息熵增率和基尼（Gini）指数

小肥柴YD的博客

07-20

7842

本篇主要介绍在构造决策树的过程中利用熵、信息增益、信息熵增率、Gini指数来衡量样本属性，选择结点的几种方法

两种不同数据类型下基尼系数与广义熵指数的求解

02-16

### 两种不同数据类型下基尼系数与广义熵指数的求解 #### 微观数据与分组数据在统计学与经济学领域，数据的结构对于分析社会经济不平等至关重要。文章首先区分了微观数据与分组数据两种类型： - **微观数据**指...

通俗易懂的决策树信息准则：信息，熵，信息增益率，基尼系数

XIAOFEI@IDO

03-31

355

我们来回顾学习一下这些概念一、信息信息是指能消除随机不确定性的内容，换句话说，告诉你一个想都不用想的事实，就不叫信息了。比如数据分析师基于大数据想发现一些有用的信息，有一天上班你告诉上级，基于数据中我们发现我们的用户性别有男有女。。。（这不废话吗？）这不叫信息但是如果你告诉上级，女性用户的登录频次、加购率，浏览商品数量远高于男性，且年龄段在25岁~30岁的女性用户消费金额最多，15-20岁最少，那么我相信你老大会眼前一亮的！！！如何衡量信息量？1948年有一位科学家香农从热力学中的熵概念，引

决策树、信息熵、基尼系数、CART

青灵_Yaffa的博客

05-09

659

问题：1、决策树每个节点在哪个维度、做划分？2、某个维度在哪个值上做划分？答：通过信息熵来确定。怎么样利用信息熵划分出最优的划分数据，从而构建决策树的？

决策树——信息熵，熵增益率，基尼系数的计算说明

qq_32834123的博客

08-12

2085

决策树(Decision Tree）是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干，故称决策树。在机器学习中，决策树是一个预测模型，他代表的是对象属性与对象值之间的一种映射关系。Entropy = 系统的凌乱程度，使用算法ID3, C4.5和C5.0生成树算法使用熵。 1. 信息增益在 ID3 决策树中使用 ”信息熵“是度量样本集合纯度最常用的指标，假设

决策树及分类原理与划分依据：信息熵、信息增益、信息增益率、基尼值和基尼指数

我的个人博客

12-27

6103

决策树：是一种树形结构，其中每个内部节点表示一个属性上的判断，每个分支代表一个判断结果的输出，最后每个叶节点代表一种分类结果，本质是一颗由多个判断节点组成的树熵(Entropy)：物理学上是“混乱”程度的量度，系统越有序，熵值越低；系统越混乱或者分散，熵值越高从信息的完整性上进行的描述：当系统的有序状态一致时，**数据越集中的地方熵值越小，数据越分散的地方熵值越大从信息的有序性上进行的描述：当数据量一致时，系统越有序，熵值越低，系统越混乱或者分散，熵值越高 1948年香农提出了信息熵（Entro

Gini Impurity（基尼不纯度）与香浓熵（Shannon Entropy））

u014765410的博客

02-19

894

Gini Impurity（基尼不纯度）与香浓熵（Shannon Entropy））

python 信息熵、条件熵、信息增益、信息增益率、基尼系数

small__roc的博客

03-11

6764

三、python 实现 import math from collections import Counter def Entropy(DataList): ''' 计算随机变量的熵 ''' counts = len(DataList) # 总数量 counter = Counter(DataList) # 每个变量出现的次数 prob = {i[0]:i[1]/counts for i in counter.items()} ..

数据挖掘note3 决策树（gini,entropy）

qq_41901755的博客

03-08

4962

常见的分类技术基本分类器 decision tree rule-based methods nearest-neighbor neural networks deep learning naive bayes and bayesian bilief networks svm 决策树 1、根据训练数据集，画出决策树 2、将该树用于预测test data 要注意的是，找出最优二分类决策树是个...

基尼系数、熵、信息增益、信息增益率

真心乖宝宝的博客

09-09

982

熵熵是事件不确定性的度量，如果事件无不确定性，则熵为0，不确定性越大，熵越大条件熵在一个条件下，随机变量的不确定性信息增益信息增益 = 熵 - 条件熵表示在一个条件下，信息不确定性减少的程度缺点：信息增益偏向取值较多的特征信息增益率本质：是在信息增益的基础之上乘上一个惩罚参数。特征个数较多时，惩罚参数较小；特征个数较少时，惩罚参数较大。惩罚参数：数据集D以特征A作为随机变量的熵的倒数，即：将特征A取值相同的样本划分到同一个子集中缺点：信息增益比偏向取值较少的特征原因：

基尼系数和熵在公平指数测量中的比较

emmaczw的博客

10-27

2098

1、写得还是很详细的，基尼指数是分类之后的概率（线性），当一个可能的测量值为一类时，与香农熵（对数）差别不大。 2、基尼指数可以用在连续数据中，香农熵用在分离数据中

机器学习系列(7)_决策树与随机森林概念

04-23

1500

注：本篇博客参考 b站：机器学习经典算法（2）——决策树与随机森林文章目录一、熵与基尼系数二、决策树构造实例三、信息增益（ID3算法）四、信息增益率（C4.5算法）五、二分选值六、决策树减枝七、随机森林决策树有三种算法：一、熵与基尼系数 熵：一件事情的混乱程度如果一个集合内部的属性很多，混乱程度就很大，则熵值也较大如果一个集合内部的属性很少，混乱程度就很小，则熵值也较小 基尼系数和熵在公式上面不同，但是表达的结果是相同的。熵和基尼系数越大，说明当前分类效果越不好熵和基尼系数越小

信息熵与基尼指数的关系（一阶泰勒展开）

MinerYCC

03-07

9084

1、信息熵：信息熵可以度量信息量，也可以表达不确定程度，混乱程度。在机器学习中，还可以度量样本集合的纯度（熵越小集合纯度越高）。信息熵的定义为：（1）其中，D表示集合，K表示类别数，Pk表示第k类别样本的比例。集合中每一类样本的比例越接近，表示集合纯度越低，越混乱，即熵的值越...