大牙老快板-CSDN博客

原创七月算法强化学习第六课学习笔记

强化学习要点大纲：1.强化学习的难点？1）credit assignment problem2）the exploration-exploitation dilemma2.怎么定义强化学习？1）马尔科夫决策过程3.怎么把“眼光”放长远？1）discounted future reward4.怎么预估“未来收益”？1）table-based Q-learnin

2017-10-28 14:59:58 760

原创七月算法强化学习第五课学习笔记

Policy Gradient策略梯度增强学习的一些分类：Value Based：值函数 Q值函数Policy Based：不需要值函数直接优化PolicyActor Critic：学习值函数学习PolicyDeterministic policy的问题Policy NetworkGradient AscentPolicy O

2017-10-23 23:19:31 316

原创七月算法强化学习第四课学习笔记

Deep Q-Network1.复习Q值函数SARSA2.Q-Learning 如果（s,a）状态太多太复杂怎么办？（围棋、Atari游戏，星际争霸）拟合值函数Q（s，a）几种值函数逼近（Value Function Approximation）值函数Linear Combination of Features Neura

2017-10-22 22:51:57 328

原创七月算法强化学习第三课学习笔记

Unknown Environment MDP Control基本思路：广义策略迭代（策略评估＋策略改进）如何保证每个状态行为对(Q,a)都可以被访问到？确保历经每个状态行为对, π(a|s) > 0 for all a, s 每次迭代确保 π’≥π（回顾policy ordering）实时在线决策：1）ExploitaAon:基于之前所有的信息做出最优选择&

2017-10-14 18:19:08 418

原创七月算法强化学习第二课学习笔记

一.Unknown Environment MDP 1.回顾：1）Known Environment MDP 策略评估2）Known Environment MDP 寻找最优策略2.Unknown Environment MDP1）大多数时候模型未知，No knowledge of MDP transitions / rewardsWhat do you

2017-10-08 16:19:17 556

原创七月算法迁移学习学习笔记

迁移学习定义：将在一个场景中学习到的知识迁移到另一个场景应用Kaggle猫狗分类比赛相同domain不同任务：老鹰&布谷鸟不同domains相似任务：高飞狗&招财猫为什么要迁移学习？Ø 使用深度学习技术解决问题的过程中，最常见的障碍在于，因为模型有大量的参数需要训练，因此需要海量训练数据作支撑。Ø 在面对某一领域的具体问题时，通常可能无法得到构建模型

2017-09-26 18:35:16 1659

原创七月算法强化学习第一课学习笔记

一、强化学习简介与应用：1.强化学习定义：强化学习是机器学习中的一个领域，强调如何基于环境而行动，以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论，即有机体如何在环境给予的奖励或惩罚的刺激下，逐步形成对刺激的预期，产生能获得最大利益的习惯性行为。2.强化学习起源：Artificial IntelligenceControl TheoryOper

2017-09-25 18:55:16 3017 14

原创七月算法深度学习第三期学习笔记-第十节深度学习与迁移学习

主要内容o 图像识别与定位1）思路1：视作回归2）思路2：借助图像窗口o 物体识别 1）边缘策略/选择性搜索 => R-CNN 2）R-CNN => Fast R-CNN 3）Fast R-CNN => Faster R-CNN 4）R-FCN简介o 有监督到有监督的迁移学习 1）fine-tune 再优化2）Multitask learning 多任务

2017-07-30 19:50:31 494

原创七月算法深度学习第三期学习笔记-第九节强化学习与Deep Q-Network

相关成就：o Learned the world’s best player of Backgammon (Tesauro 1995) o Learned acrobatic helicopter autopilots (Ng, Abbeel, Coates et al2006+) o Widely used in the placement and selection of adve

2017-07-30 12:11:52 1004

原创七月算法深度学习第三期学习笔记-第八节循环神经网络与相关应用

基础：RNN、LTSM原理见上一章节注意力模型：https://github.com/jazzsaxmafia/show_attend_and_tell.tensorflowhttps://github.com/yunjey/show-attend-and-tell生成模型：字符级别生成模型：https://gist.github.com/karpathy/

2017-07-23 23:28:56 376

原创七月算法深度学习第三期学习笔记-第七节循环神经网络与自然语言处理

一. 循环神经网络 1.场景与多种应用模仿论文模仿linux内核代码“写程序”模仿郭小四的写作机器翻译Image to text/看图说话2.层级结构先了解神经网络，为什么有BP神经网络，CNN，还要RNN？答：传统神经网络(包括CNN)，输入和输出都是互相独立的。图像上的识别物体是分隔开的，但有些任务，后续的输出和之前的内容是相关的。R

2017-07-22 11:14:04 426

原创七月算法深度学习第三期学习笔记-第六节图像风格转换

example:Google Deep Dream:

2017-07-18 18:00:43 860 1

原创七月算法深度学习第三期学习笔记-第五节生成对抗网络GAN

一、GAN部分应用1.图像生成 Training Examples -> Model Samples2.视频应用3.图片超精度变换4.图图变换二、GAN的简单理解1. 从autoencoder讲起的生成模型2. MSE存在一些问题3.简单的设想 4. 迭代与进化 Generator + Discriminator = GAN

2017-07-16 13:25:08 918 3

原创七月算法深度学习第三期学习笔记-第四节深度学习框架与应用

一、Caffe：图像的一般问题Caffe很方便，是目前产品化最多的库1.来源于Berkeley的开源框架根据Linux版本网上找寻相应配置方式，不推荐windows上安装2.高效、一般的训练无需手写大量代码① Resize图片，转换存储格式(LMDB/LevelDB)② 定义网络结构（编辑prototxt）③ 定义solver（编辑另一个prototxt）④ 一行命令开

2017-07-10 10:41:29 598

原创七月算法深度学习第三期学习笔记-第三节卷积神经网络与典型结构

一、神经网络与卷积神经网络 1.层级结构：o 数据输入层/ Input layer ：1)去均值：各维度中心化为零 2)归一化：幅度归一化到同样的范围 3)PCA/白化：PCA降维；白化是对数据每个特征轴上的幅度归一化o 卷积计算层/ CONV layer：1）局部关联。每个神经元看做一个filter。2）窗口(receptive field)

2017-07-09 19:15:50 659

原创七月算法深度学习第三期学习笔记-第二节 DNN与混合网络

背景介绍1.深度学习应用图像应用----识别（举例：淘宝拍立淘、路况识别、图像labeling、图像分割转换）NLP应用----文笔模仿NLP+图像上的应用----机器翻译、机器同声传译、语音识别综合应用综合应用原理2.神经网络非线性能力及原理1).感知器与逻辑门线性分类器：得分函数损失函数（或称代价函数、客观度）：给定W

2017-07-09 00:52:02 720

原创七月算法深度学习第三期学习笔记-第一节数学基础

深度学习数学基础：需要掌握四板块数学：1.微积分：极限微分与泰勒级数积分与微积分基本定理牛顿法微分学的核心思想是逼近。一元微分学顶峰-泰勒级数：牛顿-莱布尼茨：在一定程度上微分与积分互运算。参考资料与作业：2.概率统计：概率与积分条件概率与贝叶斯公式大数定律与中心极限定理矩估计与极大拟然估计对于离散随机变量，概率为概率函

2017-07-08 12:13:44 1445

大牙的博客