![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
神经网络技术
文章平均质量分 57
qq_30362711
话痨
展开
-
PAC bounding学习记录
参考:https://jeremykun.com/2014/01/02/probably-approximately-correct-a-formal-theory-of-learning/PAC-learnableA problem is PAC-learnable if there is an algorithm A which will likely win the game for all distributions D over X.concept, or a targetPlayer原创 2021-10-24 11:04:57 · 161 阅读 · 0 评论 -
VC维和PAC
参考博客:https://tangshusen.me/2018/12/09/vc-dimension/疑问:(1)一般情况下,假设空间的VC维约等于假设自由变量的数目。这个在线性分类器是成立的,神经网络的vc维是无穷大。(2)为什么深度学习和VC维有矛盾深度学习里,在cifar10数据集,简单的卷积网络和残差网络的参数的数量相差了很多,前者的参数量远小于后者,用vc维解释的话,测试误差和训练误差应该后者更大,但是为什么反而小了呢?我感觉是因为VC维的这些推论很大程度上是过于把问题简化,都是在线性原创 2021-08-16 10:36:46 · 290 阅读 · 0 评论 -
Meta Pseudo Labels最新半监督学习 记录
Knowledge Distillation原理:1.Teacher的输出往往带有一些额外的信息, 即Dark Knowledge. 手写体识别的classifier为例, 该classifier的作用是识别0-9的手写体数字, 其最后输出的是一个样本属于10个数字的distribution.比如样本x的输出为[1e-10, 1e-10, 0.98, 0.01, 1e-10, 0.009, 1e-10, 1e-10, 1e-10, 1e-10] (依次对应数字0-9),根据输出distributio原创 2021-01-25 14:28:58 · 2200 阅读 · 0 评论 -
imagenet 数据集读取数据速度记录
电脑配置是固态硬盘,i7cpu,不进行计算,只读数据,不做数据增广,只做resize目录:1,最初级版1,最初级版DataLoader(train_dataset, batch_size=16, shuffle=True, num_workers=0, pin_memory=True, drop_last=True, )2020-12-23 11:20:0602020-12-23 11:21:5310000读取了一万张图片花费时原创 2020-12-23 11:47:07 · 1400 阅读 · 1 评论 -
batch normalization学习记录
深度学习存在两个问题1,由于更新权重导致输入取值范围的变化导致收敛慢。2,由于输入数量的增多,一般都是累加x*w。而若假设他们都是正太0,1分布,那么加的越多会导致方差越大,因此使用sigmoid会导致饱和,而使用relu 等线性的会导致数有可能很大,几百上千的值。解决方案将每个核的输出给一个归一化,让其都保持期望是0,方差为1。归一化的话无非就是求均值方差,而根据求得方法分为很多种,因此出现各种normalization 方法。batch 方法就是在batch范围内对每个单个得输出求均值。l原创 2020-12-01 10:10:17 · 88 阅读 · 0 评论 -
neural net prune
optimal brain damage选hii小的开始都删除掉,原因就是上面的图原创 2020-11-17 17:54:43 · 64 阅读 · 0 评论 -
图卷积学习记录
The Graph Neural Network Modelhttps://zhuanlan.zhihu.com/p/76916386这个文我看一遍就感觉懂了。然后我感觉他这个和自然语言处理里的loss很像,预测下一个词是啥,然后对每个结果更新梯度。Learning Convolutional Neural Networks for Graphs缩写叫PATCHY - SAN网络。大体原理:输入一个graph,将其转换成一个图片那种数据结构,输入给卷积神经网络。存在问题:graph转换img的原创 2020-11-02 11:21:53 · 78 阅读 · 0 评论 -
深度学习网络疑问与解答
1卷积的计算和连接方式和视觉系统的一样?答:不一样Hubel 和 Wiesel 于 1962 年进行的一项有趣的试验详细说明了这一观点,他们验证出大脑中的一些个体神经细胞只有在特定方向的边缘存在时才能做出反应(即放电)。卷积只是在模拟视觉系统的工作方式,视觉系统的具体连接方式和计算方式和卷积不一定是一样的,卷积只是模仿工作方式。提出问题的原因由于卷积是需要高频的计算的,而人脑的神经元是连死不会动的,卷积是一个滑窗,不可能神经元会自己动,一会连这一会连那吧。因此提出这个问题。...原创 2020-09-08 10:16:30 · 209 阅读 · 0 评论 -
理论分析记录
问题问题1两个随机变量相乘后是什么?X是均匀分布(-1,1)Y是均匀分布(-2,2)X*Y=Z是什么分布?原创 2020-07-13 16:25:23 · 337 阅读 · 0 评论 -
各个训练数据集读取操作
MnistCifar10(x_train, y_train), (x_test, y_test) = tf.keras.datasets.cifar10.load_data()1.使用keras时,导入cifar10数据会自动下载(https://www.cs.toronto.edu/~kriz/cifar-10-python.tar.gz),但是有时会下载出错;2.解决:(1)自己下载cifar-10-python.tar.gz,然后将文件放到对应路径(~./keras/datasets/);原创 2020-05-21 11:33:48 · 560 阅读 · 0 评论 -
Trident Networks学习记录
论文的主题及主要改进的东西:主要通过改变dilation rate来变化receptive field的大小,测试不同的receptive field 对识别不同大小的目标的影响。最后证明receptive field确实是对识别有影响。模型结构:分为3个branch,每个branch都相同,只是dilation rate不同,甚至连weights都是共享的。因为都相同,所以只说一个b...原创 2019-09-19 09:41:38 · 468 阅读 · 0 评论 -
pca与ica学习与理解
本文是在学习后的理解,将数学和原理进行的总结。pca阅读资料来自http://blog.jobbole.com/109015/主成分分析(Principal Component Analysis,PCA)最近复习了线性回归,在概率论书中讲解两个变量之间的关系,变量x和y是否有关系?当然书里设x是一个变量,y是一个随机变量,并且假设y是服从正太分布的。那么假设他们线性相关的话,他们的关系必然是y=a...原创 2018-01-30 17:11:13 · 491 阅读 · 1 评论 -
线性回归笔记
1 单元线性回归一个因素x一个实验结果y之间的关系。在实际中想要测得两者的关联,比如打篮球身高和每场篮板数量的关系。很明显身高x是确定的,但是篮板数量确是随机的。不同的人即使身高相同每年比赛的平均篮板也不一样。我们只是认为y是一个随机变量,会随着x的不同y均值会变化。因此这个问题就简化成x的变化与y的均值变化的关系。设y的均值是u,那么u(x)就是待求函数。u(x)有时是线性的原创 2018-01-25 15:45:54 · 505 阅读 · 0 评论 -
梯度消失研究记录
1,sigmoid函数f`(g(x))=f`(g)*g`(x)若其中g`(x)小于1大于0,则每经过一层都会导致权重乘以一个小数,因此层数变多后会导致权重消失。2,relurelu`(x)=x若x大于0,x小于0则等于0假设输入均值是1,简化问题认为输入都是1或有一半是1,其余是0.而w都是小数,则其输出结果依据w方差和输入的数目成比例增加或减少。因此假如核太多并且没有归一化可能会导致输出结果随层...原创 2018-05-18 18:02:37 · 119 阅读 · 0 评论 -
googlenet论文阅读记录
1 Introductory好消息是近年来性能的提高并不是单纯的依靠硬件、数据量和模型大小的提升,而是靠新创意、结构、算法;如2014年的谷歌网比两年前的性能好但参数少。目标检测上不光使用了cnn,还结合了图像处理的图像分割方法,如R-CNN。It is noteworthy that the considerations leading to the design of the deep arc...原创 2018-05-14 17:25:20 · 178 阅读 · 0 评论 -
深度学习学习记录
1,大体流程:(1)大家发现有可能深层次的网络更优,但是深层网络难以训练,故无法实现(2)有人提出提前用无监督学习方式预训练,再用有监督训练。如RGB、auto-encoder等实现并验证此想法。(3)le-net提出用relu做activation可以直接就训练,不需要再预训练,获得成功(4)google-net和VGG提出了le-net的扩展板,主要是进一步加深了网络的深度,获...原创 2018-09-28 16:10:15 · 213 阅读 · 0 评论 -
recurrent neural netword,lstm学习记录
参考:https://blog.csdn.net/zhaojc1995/article/details/805720981,rnn在时间层面上会存在梯度消失,原因是由于sigmoid和tan的导数都小于一导致。即使使用relu,则可能会遇到梯度爆炸问题。且过大的步长会导致学死,因为一旦全部为0则无法翻过来。sigmoid导数值范围为(0,0.25],反向传播时会导致“梯度消失“。tanh函...转载 2018-11-13 14:12:39 · 82 阅读 · 0 评论 -
focal loss 学习记录
上图:图中的pt横轴的取值范围是0-1,接近1时有两种可能情况,(1)y是1,logit接近1(2)y是0,logit接近0.因为pt是随着y变的。所以以上两种情况来说都是预测的比较好的情况,在目标检测中,大部分都是背景,因此大部分都预测的很好,因此要减少预测的好的在loss中的权重。交叉熵解释交叉熵是一种代价函数,其可以计算出两个概率分布的差异程度。在二分类...原创 2019-04-19 14:55:43 · 226 阅读 · 0 评论 -
核方法回归
参考论文-DENSITY ESTIMATION FOR STATISTICS AND DATA ANALYSIS给定数据集,来估计概率密度函数HistogramsThe naive estimator也是分成段的平行x轴直线连接起来The kernel estimator其中kernel可以是高斯核,结果图:可以见到,高斯核估计,就是把x轴分成多个段,再分...原创 2019-07-16 17:38:32 · 2926 阅读 · 0 评论 -
熵(entropy)学习记录
阅读资料来自http://blog.csdn.net/rtygbwwwerr/article/details/50778098,本文是阅读理解记录熵就是形容一个随机事件的不确定程度的量。值越大表示其不确定程度越大。扑克54张牌抽一张有54种可能,弹硬币有2种可能,那么计算熵肯定后者小。熵也可以形容一个事物的信息量,比如假如一本书里写着a&&b=c,并且完全没对&&如...原创 2017-12-06 10:49:11 · 373 阅读 · 0 评论