评估模型与人脑模型的差距
最小二乘:累加错误的数值(平方而不是绝对值是为了方便求导,1/2是为了方便化简)
极大似然估计:x1,x2—xn是人脑模型 W,b是网络模型 求使P最大的W,b(极大似然) P值越大 越与人脑模型接近
log改连乘为连加 不影响单调性
改max为min- 求极小值
交叉熵:
中国1%赢球的信息量6.6 法国99%赢球的信息量0.01
比利时和阿根廷都是1
左边的熵 = 0.5+0.5 =1 右边的熵 =0.01+0.06 = 0.07
(KL散度、相对熵的定义)用于比较两个模型熵的差距