- 博客(25)
- 收藏
- 关注
原创 第十四讲--深度增强学习--课时33
比较难懂,参考了莫烦python强化学习。强化学习的各种分类方法如下:-----------------------------------------------------(1)理解环境,即会对环境建模,而不是直接在真实世界尝试。同时,理解环境的模型每一次通过想象预判选择了最好的做法(AlphaGo就是这种)Q-learning,policy gradients都是不理解环境的--------...
2018-05-26 10:47:13 215
原创 强化学习--李宏毅
AI = 强化学习+深度学习 Alpha go是在监督学习的基础上,让两个机器对下聊天机器人问题:训练完之后不知道聊天是否聊的好,可以考虑使用GAN,添加discriminator去判断聊天是否是人类聊天强化学习的困难:接收到positive reward的动作是需要其他没有奖励动作的基础的,游戏系统很容易学成只会开枪而不移动(因为开枪有奖励,而移动没有)系统需要探索新的行为,不能永远只是移动...
2018-05-24 22:09:26 1018
原创 第十六讲--对抗样本和对抗训练
对于人眼来说,图片没有发生变化,还是熊猫但是!对于训练好的模型来说,这个样本会被分类为猴子不只是神经网络,线性模型也会被攻击,下图圈出来的“9”已结不再被模型认为是“9”了这种表明看起来没有区别的对抗样本,不是由于模型的过拟合引起的。过拟合应该是随机的,而不是具有系统性。相反,是由于欠拟合(线性)导致,在离决策边界远的地方分数很高(即使从没有那样的样本)神经网络事实上就是分段线性的(指的是输入和输...
2018-05-22 22:36:37 6496
原创 第十五讲--深度学习的方法及硬件
为了更好地准确率,模型越来越大不同硬件消耗的能量不同* 谷歌的TPU是一种ASIC,专门用于深度学习---------------------------------------------------------------------------------------------------------计算机中的数字是离散的,不可能穷尽。fixed point只有8位,谷歌TPU就是使用了这...
2018-05-21 20:57:27 902
原创 第十四讲--深度增强学习
增强学习: 通过agent和environment交互公式化:由于含有随机性,采用最大化期望值来确定pivalue function:给定初始态,reward的加权期望值Q value function:给定初始态和初始行为,reward的加权期望值...
2018-05-19 11:08:29 220
原创 第十三讲--课时30--变分自编码器
variational autoencoders(VAE)VAE的概率分布引入了变量z,无法直接优化,我们要取其下限再做优化。----------------------------------------------------------------------------------------------------------------------自动编码机的Encoder和Decod...
2018-05-17 17:02:48 229
原创 第十三讲--无监督--生成模型--课时29
生成式模型家谱:pixel CNN和pixel RNN都是Fully visible Belief Network
2018-05-17 14:28:00 322
原创 第十二讲--可视化和理解卷积神经网络--课时27
卷积网络第一层的卷积核为n_H*n_W*3,将其可视化出来,可以看到,都是些方向边缘。即这些卷积核在找边缘特征------------------中间层的权重可以通过调整为灰度图可视化,但是看不出来意义------------------网络最后得到的特征是有意义的,下图中显示,特征近邻的图片确实是一类。比在原始图像上寻找近邻的效果好。-------------------------------...
2018-05-14 13:26:29 436
原创 第十一讲--课时26--object detection
图片中可能含有多个物体需要分类和定位,数量不确定方案一 sliding windows计算量太大,不被使用方案二 region proposalsregions是固定算法选择的,不经过学习。而且计算量还是大fast R-CNN选取region之后再投影到卷积层fast R-CNN已经很快了,但是,对于test time,region proposals的时间限制了模型速度。faster R-CNN...
2018-05-13 15:22:18 142
原创 第十一讲--课时24
计算机视觉任务:semantic segmentation 是对图像中所有像素做分类,只要是一类的都不加区分,如下,两只奶牛都被标记的一样semantic segmentation方案一 sliding windows对每个小区域去做分类,且有重叠,计算量太大。方案二 Fully convolutional卷积过程中保持尺寸不变,改变深度。最后一层深度为C(类别数目),然后在channel上做a...
2018-05-13 11:27:19 151
原创 第十讲-循环神经网络--课时23
image captioning 是由CNN和RNN连接起来的网络----------------------------------------------------------------------------------------------------------------------------Image captioning with Attention CNN处理图形后不再产...
2018-05-12 15:51:00 198
原创 第十讲--循环神经网络--课时22--语言模型
language model即语言生成模型character level language model 训练过程训练过程的输入时给定的,结果是一个向量,进过softmax后就是为各个character的概率测试过程 输入是前一个的输出,输出是由soft max 之后的概率分布 采样得到的----------------------------------------------------...
2018-05-12 11:08:36 255
原创 第十讲--循环神经网络--课时21
VGG和GoogleLeNet发明的时候,batch normalization还没有出现,因此难以使得这些网络收敛VGG预训练了11层的网络,然后才得到16/19层的GoogleLeNet添加了两个auxiliary classification part有了batch norm以后,就不再需要那样做了-----------------------------------------------...
2018-05-11 18:52:43 318
原创 第九讲-CNN架构--课时20
LeNet-5-------------------------------------------------------------------------------------------------------------------------记得pooling没有参数!AlexNet由于当时GPU内存限制,网络被放在了两个GPU上...
2018-05-11 15:57:12 213
原创 第八讲--深度学习软件--课时19
GPU最初就是为了游戏而开发的深度学习GPU目前指的就是英伟达的GPU--------------------------------------CPU一般是八核,十六核...可以同时做许多不同的事。可以多线程GPU一般是几千核,GPU的核很弱,很慢,需要几个协作才能处理任务CPU只有很小的cache,没有内存GPU本身有8/12/16GB的内存--------------------------...
2018-05-08 21:32:15 125
原创 第七讲--训练神经网络下--课时17--正则化
drop out每次迭代时,都随机将各层的A失活在全连接层较为常用,卷积神经网络中使用drop out是对某几个channel失活。---------------------------为了期望不变,消除随机性。方案一(推荐使用)inverted drop out训练过程失活后,除以失活概率测试不需要做改变测试过程由于部署在端设备上,需要计算量小-----------------------方案二...
2018-05-08 16:06:04 159
原创 第七讲--训练神经网络下--课时16--更好的优化
归一化的作用:当分割超平面改变时,预测分数变化较小。这样,神经网络容易训练。-------------------------------当各个超参数的作用不一样大(神经网络就是这样),random search 理论上更有优势。------------------------------sgd的问题:(1)由于各个参数量级不一致,迭代呈之字形,很慢(2)在接近局部...
2018-05-08 13:12:01 218
原创 第六讲-训练神经网络上--课时15--批量归一化
batch norm“you want unit gaussian activations? Just make them so”卷积神经网络由于需要保留空间信息,对所有batch使用同样的均值和方差。普通全连接网络各个batch使用各自的mean和variancegamma和beta是为了添加噪声,具有正则化的作用,它们是学习得到的参数。gamma和bata使得更flexible,比如tanh中...
2018-05-07 17:46:49 622
原创 第六讲-训练神经网络(上)--课时14-激活函数
激活函数-----------------------------------------------------------------------------------------------sigmoid:将值激活压缩到0-1之间缺点:(1)梯度很容易为0,这个激活结点杀死了反向传播回来的梯度,易造成梯度消失(2)激活之后的均值不是0,全部都是正值(0-1之间)f = sum(WiXi)+...
2018-05-07 15:58:34 238
原创 第五讲-卷积神经网络--课时12--视觉之外的卷积神经网络
卷积核也叫做感受野(receptive filed)卷积核与局部图像的一次内积求和,是下一层图像的一个像素点。那个像素点只看到了之前图像的局部。--------------------------------------------------------------------------------------------------------------------------------...
2018-05-01 11:48:41 201
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人