- 博客(10)
- 收藏
- 关注
原创 知识蒸馏——Distilling the Knowledge in a Neural Network
Distilling the Knowledge in a Neural Network是知识蒸馏的开山之作,辛顿于2015年发表的一篇论文提出!主要原因是之前提出的各种模型,无论是VGG16,Resnet,还是其他一些模型,它们都对实时性没有要求,而且模型都很大,计算量大,所以这样的模型是很难在资源有限的小型移动设备上应用的,所以辛顿提出了知识蒸馏的思想,就是用比较大的网络作为教师网络(teacher network),训练出soft target,这种soft target会表示出分类的相对信息,通俗的
2022-04-18 20:45:10
855
原创 对梯度下降算法的理解
算法目标:探寻让损失函数达到最小值的参数。通过不停的调整函数权值,改变各个神经元的权重,从而让损失函数下降的更快,进而找到损失函数的极小值。算法核心思想:梯度:表示从该点出发,函数值增长最为迅猛的方向!通过一次一次的迭代,逐步找到函数的极小值。其中α为学习率,如果α过大,不容易收敛。梯度下降需要遍历样本的所有成员,因此求各个权值的梯度会很费资源。算法的主要问题:一 当数据量过大,收敛过程可能非常慢。二 如果函数有多个局部极小值,容易局部收敛!SGD随机梯度下降SG
2022-01-07 15:35:17
859
原创 pytorch 学习笔记
第一、数据的预处理以cifar10举例,首先把cifar10数据集转换成png图片格式,把图片分类放到对应的文件夹中。其次,将这些文件按比例分成训练集,验证集和测试集。然后,将这些文件的路径和标签放到一个txt文件中。继承dataset子类,在该子类中getite该m函数中读取数据和标签。然后在主函数中实例化该子例。最后,由dataloader函数读取数据,作为模型的真正的输入。其中,需要对数据进行数据增强,可以用transform库的函数,进行随机剪裁,totensor,正则化等处理。第二、搭
2022-01-04 08:56:07
92
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人