- 博客(37)
- 资源 (23)
- 收藏
- 关注
原创 动力学理解rmsprop
其实说白了就一句话,梯度大的时候容易错,step就稍微小一点;梯度小的时候不容易错,step可以稍微大一点https://spaces.ac.cn/archives/6234
2018-12-31 11:42:41 1032
转载 adam 偏差修正理解
https://stats.stackexchange.com/questions/232741/why-is-it-important-to-include-a-bias-correction-term-for-the-adam-optimizer-for
2018-12-31 11:11:30 4089
转载 神经网络理论【梯度下降】
条件允许情况下,在使用SGD时,开始使用小batch size和大学习率,然后让batch size慢慢增加,学习率慢慢减小。
2018-12-30 16:54:39 201
原创 最长上升子序列和不下降子序列
#include <stdio.h>#include <string.h>#include <iostream>#include <algorithm>#include <vector>#include <queue>#include
2018-12-30 10:55:49 188
原创 Non-local 理解
Non-local和谷歌的all is attention 如出一辙。也可能是反着,all is attention和non-local如出一辙。看的重点是THWxTHW这个矩阵,直接暴力所有可能性。因此公式1+公式3+公式6就是Figure2。换句话说Figure2表示f()函数采取Embedded Gaussian且添加了residual connection的计算图。数据流是这样的:...
2018-12-26 16:16:05 2130
原创 概率论的本质
几何分布第一次出现正面所需要的次数E(x) = 1/pVar(x) = (1-p)/p^2柏松分布其实是二项分布的一个简化版。n很大, p很小p(k) = e-m (x^k/k!)期望E(x) = sum{xp(x)}Var(x) =E[(x-Ex)^2]平均分布E(x) = (a+b)/2Var(x) = (n^2 - 1)/12疑问: P105...
2018-12-18 19:08:55 1140
原创 洛必达法则理解
f(x)/g(x)当f(x) = g(x) = 0的时候f(x) ~= df(x)dxg(x) ~= dg(x)dxf(x)/g(x) ~= df(x)/dg(x)
2018-12-18 15:53:47 1554
原创 微积分的理解
三角函数sin(θ)′=cos(θ)sin(\theta)' = cos(\theta)sin(θ)′=cos(θ)链式法则
2018-12-18 15:11:30 1862
原创 Pytorch中nn.ModuleList 和 nn.Sequential的区别
ModuleList里面没有forward函数Sequential里面有forward函数
2018-12-14 00:46:20 1739
原创 pytorch load_lua不支持 nngraph
查找了很多,发现pytorch load_lua不支持nngraph.所以只要是 model里面有nngraph的 都不能直接转成pytorch的model.
2018-12-13 15:15:08 983
原创 mask rcnn keypoint格式理解
a = Nx4x17a[:,:2,:]是关节点a[:,2,:] 是没有归一化的概率a[:,3,:] 是归一化的概率
2018-12-10 19:16:55 1409
原创 Batch Norm理解
1. batch norm理解即便噪声的引入使得分布不稳定,但在训练性能仍比标准网络好。所以,BatchNorm的有效性与Internal Covariate Shift并没有什么联系。
2018-12-05 18:56:12 374
人工智能的未来
2018-12-13
数学建模matlab代码大礼包
2018-08-31
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人