基于Hourglass的一种轻量网络,特点:轻量,易训练
知识蒸馏,有一个老师模型,然后训练轻量的学生模型,这样会更快
3.1网络结构:相比于沙漏网络,stage砍半,channel砍半,就没其它改变了
3.2LOSS是两部分,一部分是老师的预测结果,一部分是GT
感觉作者的remark就是在扯淡。
还给了个MSE和交叉熵LOSS,结果差不多
作者还给了不用知识蒸馏结果也在一个点的范围内
这篇文章有点水。。。。。
基于Hourglass的一种轻量网络,特点:轻量,易训练
知识蒸馏,有一个老师模型,然后训练轻量的学生模型,这样会更快
3.1网络结构:相比于沙漏网络,stage砍半,channel砍半,就没其它改变了
3.2LOSS是两部分,一部分是老师的预测结果,一部分是GT
感觉作者的remark就是在扯淡。
还给了个MSE和交叉熵LOSS,结果差不多
作者还给了不用知识蒸馏结果也在一个点的范围内
这篇文章有点水。。。。。