大牙老快板-CSDN博客

原创七月算法强化学习第六课学习笔记

强化学习要点大纲： 1.强化学习的难点？ 1）credit assignment problem 2）the exploration-exploitation dilemma 2.怎么定义强化学习？ 1）马尔科夫决策过程 3.怎么把“眼光”放长远？ 1）discounted future reward 4.怎么预估“未来收益”？ 1）table-based Q-learnin

2017-10-28 14:59:58 760

原创七月算法强化学习第五课学习笔记

Policy Gradient策略梯度增强学习的一些分类： Value Based：值函数 Q值函数 Policy Based：不需要值函数直接优化Policy Actor Critic：学习值函数学习Policy Deterministic policy的问题 Policy Network Gradient Ascent Policy O

2017-10-23 23:19:31 315

原创七月算法强化学习第四课学习笔记

Deep Q-Network 1.复习Q值函数 SARSA 2.Q-Learning 如果（s,a）状态太多太复杂怎么办？（围棋、Atari游戏，星际争霸）拟合值函数Q（s，a）几种值函数逼近（Value Function Approximation）值函数 Linear Combination of Features Neura

2017-10-22 22:51:57 328

原创七月算法强化学习第三课学习笔记

Unknown Environment MDP Control 基本思路：广义策略迭代（策略评估＋策略改进）如何保证每个状态行为对(Q,a)都可以被访问到？确保历经每个状态行为对, π(a|s) > 0 for all a, s 每次迭代确保 π’≥π（回顾policy ordering）实时在线决策： 1）ExploitaAon:基于之前所有的信息做出最优选择&

2017-10-14 18:19:08 418

原创七月算法强化学习第二课学习笔记

一.Unknown Environment MDP 1.回顾： 1）Known Environment MDP 策略评估 2）Known Environment MDP 寻找最优策略 2.Unknown Environment MDP 1）大多数时候模型未知，No knowledge of MDP transitions / rewards What do you

2017-10-08 16:19:17 552

原创七月算法迁移学习学习笔记

迁移学习定义：将在一个场景中学习到的知识迁移到另一个场景应用 Kaggle猫狗分类比赛相同domain不同任务：老鹰&布谷鸟不同domains相似任务：高飞狗&招财猫为什么要迁移学习？ Ø 使用深度学习技术解决问题的过程中，最常见的障碍在于，因为模型有大量的参数需要训练，因此需要海量训练数据作支撑。 Ø 在面对某一领域的具体问题时，通常可能无法得到构建模型

2017-09-26 18:35:16 1656

原创七月算法强化学习第一课学习笔记

一、强化学习简介与应用： 1.强化学习定义：强化学习是机器学习中的一个领域，强调如何基于环境而行动，以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论，即有机体如何在环境给予的奖励或惩罚的刺激下，逐步形成对刺激的预期，产生能获得最大利益的习惯性行为。 2.强化学习起源： Artificial Intelligence Control Theory Oper

2017-09-25 18:55:16 3016 14

原创七月算法深度学习第三期学习笔记-第十节深度学习与迁移学习

主要内容 o 图像识别与定位 1）思路1：视作回归 2）思路2：借助图像窗口 o 物体识别 1）边缘策略/选择性搜索 => R-CNN 2）R-CNN => Fast R-CNN 3）Fast R-CNN => Faster R-CNN 4）R-FCN简介 o 有监督到有监督的迁移学习 1）fine-tune 再优化 2）Multitask learning 多任务

2017-07-30 19:50:31 493

原创七月算法深度学习第三期学习笔记-第九节强化学习与Deep Q-Network

相关成就： o Learned the world’s best player of Backgammon (Tesauro 1995) o Learned acrobatic helicopter autopilots (Ng, Abbeel, Coates et al2006+) o Widely used in the placement and selection of adve

2017-07-30 12:11:52 1002

原创七月算法深度学习第三期学习笔记-第八节循环神经网络与相关应用

基础：RNN、LTSM原理见上一章节注意力模型： https://github.com/jazzsaxmafia/show_attend_and_tell.tensorflow https://github.com/yunjey/show-attend-and-tell 生成模型：字符级别生成模型：https://gist.github.com/karpathy/

2017-07-23 23:28:56 375

原创七月算法深度学习第三期学习笔记-第七节循环神经网络与自然语言处理

一. 循环神经网络 1.场景与多种应用模仿论文模仿linux内核代码“写程序” 模仿郭小四的写作机器翻译 Image to text/看图说话 2.层级结构先了解神经网络，为什么有BP神经网络，CNN，还要RNN？答：传统神经网络(包括CNN)，输入和输出都是互相独立的。图像上的识别物体是分隔开的，但有些任务，后续的输出和之前的内容是相关的。 R

2017-07-22 11:14:04 424

原创七月算法深度学习第三期学习笔记-第六节图像风格转换

example: Google Deep Dream:

2017-07-18 18:00:43 856 1

原创七月算法深度学习第三期学习笔记-第五节生成对抗网络GAN

一、GAN部分应用 1.图像生成 Training Examples -> Model Samples 2.视频应用 3.图片超精度变换 4.图图变换二、GAN的简单理解 1. 从autoencoder讲起的生成模型 2. MSE存在一些问题 3.简单的设想 4. 迭代与进化 Generator + Discriminator = GAN

2017-07-16 13:25:08 918 3

原创七月算法深度学习第三期学习笔记-第四节深度学习框架与应用

一、Caffe：图像的一般问题Caffe很方便，是目前产品化最多的库 1.来源于Berkeley的开源框架根据Linux版本网上找寻相应配置方式，不推荐windows上安装 2.高效、一般的训练无需手写大量代码 ① Resize图片，转换存储格式(LMDB/LevelDB) ② 定义网络结构（编辑prototxt） ③ 定义solver（编辑另一个prototxt） ④ 一行命令开

2017-07-10 10:41:29 597

原创七月算法深度学习第三期学习笔记-第三节卷积神经网络与典型结构

一、神经网络与卷积神经网络 1.层级结构： o 数据输入层/ Input layer ： 1)去均值：各维度中心化为零 2)归一化：幅度归一化到同样的范围 3)PCA/白化：PCA降维；白化是对数据每个特征轴上的幅度归一化 o 卷积计算层/ CONV layer： 1）局部关联。每个神经元看做一个filter。 2）窗口(receptive field)

2017-07-09 19:15:50 658

原创七月算法深度学习第三期学习笔记-第二节 DNN与混合网络

背景介绍 1.深度学习应用图像应用----识别（举例：淘宝拍立淘、路况识别、图像labeling、图像分割转换） NLP应用----文笔模仿 NLP+图像上的应用----机器翻译、机器同声传译、语音识别综合应用综合应用原理 2.神经网络非线性能力及原理 1).感知器与逻辑门线性分类器：得分函数损失函数（或称代价函数、客观度）：给定W

2017-07-09 00:52:02 719

原创七月算法深度学习第三期学习笔记-第一节数学基础

深度学习数学基础：需要掌握四板块数学： 1.微积分：极限微分与泰勒级数积分与微积分基本定理牛顿法微分学的核心思想是逼近。一元微分学顶峰-泰勒级数：牛顿-莱布尼茨：在一定程度上微分与积分互运算。参考资料与作业： 2.概率统计：概率与积分条件概率与贝叶斯公式大数定律与中心极限定理矩估计与极大拟然估计对于离散随机变量，概率为概率函

2017-07-08 12:13:44 1444

大牙的博客