机器学习
sanddoor
这个作者很懒,什么都没留下…
展开
-
用神经网络训练一个XOR函数
用多层神经网络MLP,平台用keras。网上的例子一般是把XOR当作一个分类问题,即结果0/1看作是分类的是与否。我想把XOR看作一个数值函数,看能不能用神经网络来拟合。因为已知XOR函数是不可能用线性回归来拟合,而神经网络声称能模拟任何函数,所以让我们来看看神经网络的能力。代码如下:import numpy as npfrom keras.layers import Densefro...原创 2019-12-02 11:33:53 · 1177 阅读 · 0 评论 -
三谈香浓熵:交叉熵与损失函数
理解香浓熵再谈香浓熵:编码与信息量有了前两篇做基础,我们就可以来理解机器学习中的一种损失Loss(又称代价Cost 或误差 Error)函数了。交叉熵作为损失函数假设现在需要学习一个映射:输入为XXX, 输出为YYY。我们把X,YX, YX,Y看作一个随机变量,那么训练集中的每一对数据(xix_ixi, yiy_iyi)就是随机变量的一个值。这个随机变量的真实概率分布记为Pdata...原创 2019-11-29 17:17:17 · 368 阅读 · 0 评论 -
再谈香浓熵:编码与信息量
接上篇:理解香浓熵信号编码香浓熵的妙处在于其数值描述了一个随机变量的需要最佳(二进制)编码长度(bit 位数)。唯一取值随机变量极端情况:某个随机变量永远输出唯一单一的值。就像上篇中的收音机,永远输出440Hz的音。那么根本不需要编码,我们“闭着眼睛”都知道这个值。编码所需长度为0。二值随机变量如果随机变量有两个可能的值,比如440Hz 与 261Hz的音。那么如果我们要告诉别人现...原创 2019-11-29 16:22:09 · 763 阅读 · 0 评论 -
理解香浓熵
理解香浓熵随机变量的有趣与乏味香浓熵均匀分布下的香浓熵随机变量的有趣与乏味香浓熵用来度量一个随机变量的信息量。举个例子,假设有一台收音机,每秒钟发出一个单音,这个单音的频率就是随机变量的值。那么如果它每次发的音都是一样的,比如,都是440hz(钢琴上的A4),那么它就很单调乏味,信息量很小。如果它有时候发440hz,有时候发261hz(中央C),那么信息量就大一点,也有趣一点。以此类推...原创 2019-11-29 11:30:01 · 714 阅读 · 0 评论