自定义博客皮肤

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

强化学习经典算法笔记(六):深度Q值网络 Deep Q Network

前期回顾 强化学习经典算法笔记(零):贝尔曼方程的推导 强化学习经典算法笔记(一):价值迭代算法Value Iteration 强化学习经典算法笔记(二):策略迭代算法Policy Iteration 强化学习经典算法笔记(三):蒙特卡罗方法Monte Calo Method 强化学习经典算法笔记...

2019-04-17 00:05:43

阅读数 635

评论数 0

AlphaGo Zero是如何工作的?——AlphaGo Zero背后的强化学习算法原理

  Deepmind公司的AlphaGo算法是第一个打败人类选手的围棋程序。2016年三月,打败李世石的是AlphaGo Lee,一个靠大量人类围棋专家的棋谱进行监督学习和自对弈强化学习进行训练的AI程序。不久之后,deepmind的新论文展示了不同于之前AlphaGo的全新网络结构——它仅仅用了...

2019-02-17 14:21:59

阅读数 306

评论数 0

基于卷积神经网络和时域金字塔池化的语音情感分析

基于卷积神经网络和时域金字塔池化的语音情感分析 概述 这是最近学习《这篇文章》时所做的笔记和代码实现。其中有部分太过复杂没有复现出来

2019-01-08 23:15:35

阅读数 1195

评论数 10

从零开始搭建Ubuntu下的深度学习环境TensorFlow+Keras+Pytorch+Sklearn+OpenCV

我的Ubuntu系统又双叒叕崩溃了,卡在系统登录输密码的界面循环,似乎是更新了一下系统,和英伟达的驱动不兼容了。正好我的CUDA版本是8.0,支持不了高版本的TensorFlow,很难受,索性格式化系统,重新来一遍好了。现将整个过程记录在此,以备后查。 正文开始 从零开始搭建Ubuntu下的深...

2018-09-26 23:59:37

阅读数 2930

评论数 2

深度学习人脸检测框架DFace-win64的调试与视频人脸检测

深度学习人脸检测框架DFace-win64的调试与视频人脸检测 在分辨率不是很高的视频中,Haar+AdaBoost的人脸检测方式精度不是很高,错检也有很多,于是尝试用深度学习的方式来做人脸检测。目标是在视频/图片中检出人脸的位置,画出Bounding Box,以便于作为输入图像进行表情。 本...

2018-09-01 15:55:16

阅读数 697

评论数 1

Windows10+GPU+Anaconda3+Pytorch+TensorFlow+Keras配置方法

配环境这个事真的是常看常新,随着package的不断更新,之前配环境的经验都不能用了,所以新开一贴,记录一下最近配环境的曲折之路。 之前博客Windows10 GPU版Tensorflow配置教程+Anaconda3+Jupyter Notebook依然可以用。...

2018-08-31 22:51:53

阅读数 1062

评论数 0

机器学习与计算机视觉入门项目——视频投篮检测(二)

机器学习与计算机视觉入门项目——视频投篮检测(二) 一、手工特征与CNN特征 在上一次的博客中,介绍了计算机视觉和机器学习的关系、篮球进球检测的基本问题和数据集的制作。这次的我们主要介绍如何从原始图像中提取有用的图像特征,以便应用于之后的分类器。 如下图所示,我们现在要做的是Featur...

2018-08-27 04:51:06

阅读数 707

评论数 3

Windows10 GPU版Tensorflow配置教程+Anaconda3+Jupyter Notebook

之前配Caffe费了不少周折,详情参阅 深度学习之caffe入门——caffe环境的配置(CPU ONLY)。 如今转战Tensorflow,又免不了配环境之苦,摸索半天。终得其法。记录下来,以备后用。 一、在使用pip安装package的时候,经常崩掉,换用清华的源就好很多,或者用豆瓣的源也...

2018-03-07 23:08:16

阅读数 1790

评论数 0

构建深度神经网络,我有20条「不成熟」的小建议

构建深度神经网络,我有20条「不成熟」的小建议 转载自 https://mp.weixin.qq.com/s/8DlnAKM94mgNoGd4opJD8A 在我们的机器学习实验室中,我们已经在许多高性能的机器上进行了成千上万个小时的训练,积累了丰富的经验。在这个过程中,并不只有电脑学习到了很多的知...

2019-04-24 18:22:15

阅读数 104

评论数 0

精选26个Python实用技巧,想秀技能先Get这份技术列表!

转载自 https://mp.weixin.qq.com/s/ttuB63_N5SQdOhIwLFGYgg 精选26个Python实用技巧,想秀技能先Get这份技术列表! 1. all 或 any 人们经常开玩笑说 Python 是“可执行的伪代码”,但是当你可以这样编写代码时,你就很难反驳了。 ...

2019-04-24 18:11:03

阅读数 68

评论数 0

Windows10安装Gym[atari]和Gym[box2d]失败的解决办法

pip install --no-index -f https://github.com/Kojoley/atari-py/releases atari_py

2019-04-19 21:58:50

阅读数 802

评论数 1

强化学习资源——Hands-On Reinforcement Learning、Deep Reinforcement Learning Hands-On等

Hands-On Reinforcement Learning with Python PDF 链接:https://pan.baidu.com/s/1CzplQERRjwgi0b9pQTebFw 密码:u3v5 代码 链接:https://pan.baidu.com/s/1rrmuZTPML-...

2019-04-12 22:44:17

阅读数 419

评论数 0

强化学习经典算法笔记(五):时间差分算法Temporal Difference(SARSA算法)

强化学习经典算法笔记——SARSA算法 强化学习经典算法笔记(零):贝尔曼方程的推导 强化学习经典算法笔记(一):价值迭代算法Value Iteration 强化学习经典算法笔记(二):策略迭代算法Policy Iteration 强化学习经典算法笔记(三):蒙特卡罗方法Monte Cal...

2019-04-11 18:08:00

阅读数 177

评论数 0

强化学习经典算法笔记(四):时间差分算法Temporal Difference(Q-Learning算法)

强化学习经典算法笔记——时间差分算法 强化学习经典算法笔记(零):贝尔曼方程的推导 强化学习经典算法笔记(一):价值迭代算法Value Iteration 强化学习经典算法笔记(二):策略迭代算法Policy Iteration 强化学习经典算法笔记(三):蒙特卡罗方法Monte Calo...

2019-04-11 15:13:16

阅读数 210

评论数 0

让你手里的Ubuntu系统爽到飞起——记Ubuntu系统的Windows化(未完待续)

1. 安装微信 sudo apt install snapd snapd-xdg-open sudo snap install electronic-wechat electronic-chat 删除微信 sudo snap remove electronic-wecha...

2019-04-10 11:17:41

阅读数 114

评论数 0

强化学习经典算法笔记(三):蒙特卡罗方法Monte Calo Method

强化学习经典算法笔记——蒙特卡罗方法 强化学习经典算法笔记(零):贝尔曼方程的推导 强化学习经典算法笔记(一):价值迭代算法Value Iteration 强化学习经典算法笔记(二):策略迭代算法Policy Iteration   前三篇都是在环境模型已知的情况下求解最优算法,但是很多情...

2019-04-09 17:59:46

阅读数 176

评论数 0

强化学习经典算法笔记(零):贝尔曼方程的推导

强化学习经典算法笔记——推导贝尔曼方程   在写强化学习经典算法笔记(一):价值迭代算法Value Iteration和强化学习经典算法笔记(二):策略迭代算法Policy Iteration的时候,感觉关键的部分——为什么要这样进行值(策略)迭代,没有讲清楚,概念有点模糊,所以感觉有必要重新关...

2019-04-09 14:29:24

阅读数 1024

评论数 0

强化学习经典算法笔记(二):策略迭代算法Policy Iteration

强化学习经典算法笔记——策略迭代算法   上一篇讲了价值迭代算法,这一篇介绍另一个动态规划算法——策略迭代算法(Policy Iteration)。 简单介绍   Value Iteration的思路是:先迭代找出一个最优的Value Function,然后再根据Value Function迭代出...

2019-04-08 17:09:16

阅读数 1126

评论数 1

强化学习经典算法笔记(一):价值迭代算法Value Iteration

强化学习经典算法笔记——价值迭代算法   由于毕业设计做的是强化学习相关的内容,感觉有必要把强化学习经典算法实现一遍,加强对算法和编程的理解。所以从这一篇开始,每一篇实现一个算法,主要包括Value Iteration,Policy Iteration,Q Learning,Actor-Crit...

2019-04-08 16:05:38

阅读数 654

评论数 0

循环世界模型(Recurrent World Models)——真实世界建模的强化学习利器

世界模型 智能体可以在它们头脑中的世界进行学习吗?   世界模型(World Model)是NIPS 2018获得口头报告的论文之一,也是谷歌AI和Deepmind 2019年力作深度规划网络 PlaNet的主要参考文献之一。这篇博文是对World Model论文的翻译和学习笔记。原文地址 h...

2019-03-08 22:32:43

阅读数 1670

评论数 3

提示
确定要删除当前文章?
取消 删除