关于神经网络理论的几个疑问与思考

1,loss function应该如何设计?如果我需要修改loss function,需要遵循哪些规则?

我看到caffe中有多种不同的loss层,但是不理解为什么要这样设计。我有时候很想改loss function,但是又不知道这样改理论上是否可行。

说两个具体的问题:

第一,比如,DRML(2016,CVPR)中用multi label sigmoid 交叉熵函数作为loss function时,如下图:


我非常不能理解,相比于sigmoid 交叉熵函数,它多了一次对标签C的累加,但是最终却没有除以C,这是为什么?

如果我在原layer基础上修改代码,除以了C,然后再在学习率上乘以C.

想想看loss的作用就是反向求导调整训练参数,那么学习率乘以C倍,梯度值除以了C,参数变化量是不是跟没有这个改变时完全一样了?

第二,最开始设计loss是说跟真实值越接近越好,所以用一个函数去刻画,优化的目标也是这个函数计算出来的loss尽可能小,但是实际上我们在比较不同算法时又基本上不靠precision做比较,我们期待的,往往是f1 score最高,既然我们把数据的真实标签送进去了,神经网络也计算了预测结果,那么我们完全可以用f1 score的某个反比函数作为loss函数,这样做以后神经网络的目标就是优化loss最小也就是f1 score最大,这样训练出来的结果f1 score不是应该更高吗?为什么大家不直接这样用呢?


2,分类问题中哪些标准适合做统一对比?上课时老师说不能用precision,因为要考虑recall,有人用f1 score作为标准,有人用AUC 作为标准,但是要面对数据偏倚严重的问题,所以有人又做了有偏倚的f1 score计算探究,有没有比较统一,容易计算,并且非常合理公平的计算方式?





评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值