自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 熵、联合熵、条件熵、KL散度、互信息定义

熵在物理中是用于衡量一个热力学系统的无序程度,表达式为△S=Q/T,其中Q是吸收或者释放的热量,T是温度。计算机领域将其定义为离散随机事件出现的概率。一个系统越是有序信息熵就会越低;反之,系统越是混乱,信息熵就越高。「联合熵」 两个随机变量X,Y的联合分布可求得联合熵。「条件熵」 在随机变量X发生的前提下,随机变量Y带来的新的熵,即为Y的条件熵。其含义是衡量在已知随机变量X的条件下随机变量Y带来的新的熵即为Y的条件熵。「KL散度」 两个概率分布(probability distribution)间

2020-07-05 09:35:21 94

原创 什么是数据不平衡问题,应该如何解决

数据不平衡又称样本比例失衡,比如二分类问题,如果标签为1的样本占总数的99%,标签为0的样本占比1%则会导致判断「失误严重」,准确率虚高。常见的解决不平衡问题的方法如下。「数据采样」 数据采样分为上采样和下采样,上采样是将少量的数据通过重复复制使得各类别比例均衡,不过很容易导致过拟合问题,所以需要在新生成的数据中加入随机扰动。 下采样则相反,下采样是从多数类别中筛选出一部分从而使得各类别数据比例维持在正常水平,但容易丢失比较重要的信息,所以应该多次随机下采样。 「数据合成」是利用已有样本的特征

2020-07-05 09:34:34 3143

提示
确定要删除当前文章?
取消 删除