![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
DeepLearn
文章平均质量分 55
Li_yi_chao
这个作者很懒,什么都没留下…
展开
-
知识蒸馏 Knowladge Distillation
蒸馏的本意是通过物质不同的沸点,分离出所需的物质。神经网络的KD也是如此,但用下面的图例更容易被接受。可以发现6岁后对同一区域的神经网络开始简化,只保留最有用的部分。问题来了:为什么不直接训练小网络,要大费周折先训练一个大的,再化简到小的呢?因为大的网络训练更容易实现,这好比买大乐透,买的越多中奖的概率越大。weight pruning 使得矩阵不规则,GPU无法加速法二解释:聚类后,用cluster的id表示,(数值可以取均值)法三解释:霍夫曼编码,比较...原创 2021-10-12 14:35:30 · 193 阅读 · 0 评论 -
深度剖析 AlphaGo 的训练策略
AlphaGo的训练中,主要涉及三个核心网络、四个重要部分三个核心网络:1、有监督的CNN:学习大量高手棋谱,实现‘快速成长’2、估值网络VL:实战中,value-learn会对系统的下一步落子的策略,做评估3、强化学习网络 RL:计算机不断‘自我对弈’,并在整盘棋下完后,对胜败结果做反馈,从而对整盘棋落子的合理性打分,协助系统落子。四个重要部分:1、走棋网络:给定抢...原创 2018-02-28 10:30:54 · 2111 阅读 · 0 评论 -
VGG Net
image - mean_pixel的操作是必须的么?有什么优点?(非必要操作、先验操作、加快收敛)训练的时候减均值相当于加了一个先验,就是网络的输出对于图像整体亮度的改变具有不变性。也就是说,这样假设输入图像像素整体加上常数之后预测结果不变。这个先验在大部分任务上都是成立的,比如物体分类,物体分割等。好处是可以作为一种正则化,减少网络的学习负担,加快收敛。所以通常训练都会使用减均值的操作...原创 2018-05-09 16:03:12 · 251 阅读 · 0 评论 -
深度学习理解
在链式结构中,主要考虑的是网络的深度和每一层的宽度。通常来说更深的网络对每一层能够使用更少的单元数以及参数,并且泛化效果更好,但是它也更能难以训练在很多情况下,使用更深的模型能够减少表示期望函数所需的单元数量,并且可以减少泛化误差。增加网络的深度往往能够得到比增加宽度更加好的泛化能力。(当然深度与宽度同等重要)正则化策略中,有些是向机器学习模型中添加限制参数值的额外约束,有些是向目标函数添...原创 2018-05-16 16:21:03 · 680 阅读 · 0 评论 -
小白搭建TensorFlow_GPU,你必须要先明白这些东西,一定帮得到你
一、 小白搭建环境感觉比深度学习本身还吃力,因为没搞清楚下面这些概念,所以查很多资料都安装不成功。 1、什么是GPU?为什么装GPU版?你电脑上有GPU吗?有的话在电脑上哪个位置? GPU是图形处理器;GPU更适合跑深度学习代码;GPU通常存在于你的显卡里,故在高级属性中的设备管理器查看你电脑上的显卡型号,因为深度学习需要一块不错的显卡(如配有SSD就更好了),所以...原创 2018-05-29 17:15:24 · 3616 阅读 · 0 评论 -
DeepLearn——NeuralStyle
“人工智障”还会“造假”,它神奇的仿造能力到底是怎么回事? ——其神秘的面纱其实就是一个loss function。这个代价函数由两部分组成,一部分负责画的内容,即content部分;另一部分负责风格,即style部分。同样取内容画和风格画的conv5的W,同时初始化一张新画(可以是一张白纸:w均为0)。content部分:内容画的W矩阵与新画的W矩阵的差的平方和(con...原创 2018-05-30 17:04:23 · 190 阅读 · 0 评论