1、卷积神经网络的工作过程
放进网络中的可以是一个个batch的放(一个batch假设有250张照片),输入的数据是一个4维的数据,最后输出的是多个图片的loss。做反向传播训练参数的时候可以全部loss一起算,比如把全部loss加和得到一个LOSS。
假设损失函数是
||y−f(x)||2
|
|
y
−
f
(
x
)
|
|
2
,损失函数对x求导,得到的
dw=2(y−f(x))(αf(x)/αx)
d
w
=
2
(
y
−
f
(
x
)
)
(
α
f
(
x
)
/
α
x
)
,然后y-f(x)=LOSS.
反向传播如何更新权重:
w1=w1−学习率∗dw
w
1
=
w
1
−
学
习
率
∗
d
w
2、RNN工作过程
RNN 总共有 3 个组成部分 ( input_layer, cell, output_layer),分别是什么?
3、目标检测中Selective Search算法
4、softmax
https://hit-scir.gitbooks.io/neural-networks-and-deep-learning-zh_cn/content/chap3/c3s4.html
softmax回归
http://ufldl.stanford.edu/wiki/index.php/Softmax%E5%9B%9E%E5%BD%92
5、对抗网络
https://www.msra.cn/zh-cn/news/features/gan-20170511
6、自编码autoencoder
https://morvanzhou.github.io/tutorials/machine-learning/ML-intro/2-5-autoencoder/
稀疏自编码sparse autoencoder
https://blog.csdn.net/u010278305/article/details/46881443
UC Davis 的 Bruno Olshausen 和康奈尔大学的 David Field 于 1996 年的发表的论文《Sparse Coding with an Overcomplete Basis Set: A Strategy by V1?》
http://redwood.psych.cornell.edu/papers/olshausen_field_1997.pdf
7、无监督学习
作者:Porzy
链接:https://www.zhihu.com/question/23194489/answer/75555668
来源:知乎
“Because we don’t give it the answer, it’s unsupervised learning”。
还是先来问题化地解释一下无监督学习:我们有一些问题,但是不知道答案,我们要做的无监督学习就是按照他们的性质把他们自动地分成很多组,每组的问题是具有类似性质的(比如数学问题会聚集在一组,英语问题会聚集在一组,物理……..)。
所有数据只有特征向量没有标签,但是可以发现这些数据呈现出聚群的结构,本质是一个相似的类型的会聚集在一起。把这些没有标签的数据分成一个一个组合,就是聚类(Clustering)。比如Google新闻,每天会搜集大量的新闻,然后把它们全部聚类,就会自动分成几十个不同的组(比如娱乐,科技,政治……),每个组内新闻都具有相似的内容结构。
无监督学习还有一个典型的例子就是鸡尾酒会问题(声音的分离),在这个酒会上有两种声音,被两个不同的麦克风在不同的地方接收到,而可以利用无监督学习来分离这两种不同的声音。注意到这里是无监督学习的原因是,事先并不知道这些声音中有哪些种类(这里的种类就是标签的意思)。而且鸡尾酒问题的代码实现只要一行,如下:
聚类过程:
https://yoyoyohamapi.gitbooks.io/mit-ml/content/KMeans/articles/K-Means%E7%AE%97%E6%B3%95%E6%AD%A5%E9%AA%A4.html
无监督学习概览
http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0152173
Google Brain 团队的人想让系统知道 YouTube 视频里面有什么。他们所实现的 “YouTube 找猫算法”重新激起了大众对于人工智能的热情。他们的论文介绍了 Google Brain 同斯坦福大学的 Quoc Le 和吴恩达合作,开发出一个分类算法,能够把 YouTube 视频分为很多不同的类,其中一类就是猫。他们并没有为系统设置“找猫”的任务,也没有提供任何标记数据,但是算法能对 YouTube 视频自动分组,并且找出了猫,当然还有 ImageNet 所定义的22000个类别中的数千个其他物体。
吴恩达“从 YouTube 视频中找猫”的论文
https://arxiv.org/abs/1112.6209
更多的无监督学习技术可以从以下文献找到:
自编码机(Autoencoding) - http://ufldl.stanford.edu/tutorial/unsupervised/Autoencoders/
主成分分析(PCA) - https://www.quora.com/What-is-an-intuitive-explanation-for-PCA
随机森林(Random forests) - https://en.wikipedia.org/wiki/Random_forest
K均值聚类(K-means clustering) - https://www.youtube.com/watch?v=RD0nNK51Fp8
更系统地学习无监督学习,可以用 Udacity 这门课程
https://www.udacity.com/course/machine-learning-unsupervised-learning–ud741
最有前景的无监督学习方法之一,是刚刚出现的生成式对抗网络。该方法由当时还在 Yoshua Bengio 实验室工作的 Ian Goodfellow 提出。在该模型中有两个相互对抗的神经网络组成。一个叫做生成器,负责生成真实数据的近似,企图骗过另一个叫做判别器的网络。这个方法已经取得了优异的成果,比如从文本描述或者手绘素描中生成图片,所生成的图片跟照片一样逼真。
Yann LeCun 谈 GAN - https://www.quora.com/What-are-some-recent-and-potentially-upcoming-breakthroughs-in-deep-learning
从文本描述生成图片的论文 - https://arxiv.org/abs/1612.03242
从手绘素描生成图片的论文 - https://arxiv.org/abs/1611.07004v1
8、生成对抗网络(GAN)相比传统训练方法有什么优势?
一次生成一个样本,不用一个个像素生成
https://www.zhihu.com/question/56171002
9、ROI Pooling的意义
https://blog.csdn.net/lanran2/article/details/60143861
不同大小的特征框pooling后得到大小相同的特征框图,通过调整pooling窗口的大小和步长使得pooling出来的图一样大小。
通俗来说就是,convolution layer计算是不改变图像大小的,记得吧,就是会以某个格作中心,用周围的像素来算出一个数作为这个中心格的值。pooling就是通过将整个图分成一个个窗口,这个窗口我取最大值或者均值吧作为这个窗口的值,就用一个个窗口的值作为feature map,整个就变小啦。
详见spp pooling方法:
https://blog.csdn.net/yzf0011/article/details/75212513
10、全连接层是怎么工作
https://blog.csdn.net/zxyhhjs2017/article/details/78605283