2019年04月_Erick_Lv

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创判断无序数组中是否存在两个数之和为m

题目描述给定一个长度是n整数的无序序列，然后给定一个整数m，判定是序列中是否有两个数的和是m。注意，数列是无序的，数据可能有重复的。解题思路需要利用哈希进行解题，这样保证复杂度是O(n)O(n)O(n)。注意一个特别情况，加入数据序列是{1, 3, 5}，数据是6，那么3的情况下会出问题。因此解决方案是：如果m是偶数，而且当前的数是m/2而且只出现了一次，那么肯定不是。AC代码#inc...

2019-04-23 18:03:56 959

原创 Deepin添加PPA显示没有公钥签名

添加了Ubuntu的一个PPA源，但是显示没有公钥签名，无法更新：The following signatures couldn't be verified because the public key is not available: NO_PUBKEY 55F96FCF8231B6DD解决方案：sudo apt-key adv --keyserver keyserver.ubuntu...

2019-04-21 22:25:53 2078

问题描述给定一个无序的子序列，判定这个子序列中最长的连续子序列的长度。子序列是这样定义的：比如给定{2, 3, 100, 5, 4}，那么2, 3, 4, 5就算是一个连续的子序列。假设没有重复的数据。解题思路O(n)O(n)O(n)的复杂度，借助std::unordered_set实现，把所有的元素构造到一个Hash Set中，那么查找和删除的复杂度是O(1)O(1)O(1)。之后遍历搜寻...

2019-04-21 17:34:35 4597

原创 Double Deep Q-Learning Netwok的理解与实现

理论简介Double Deep Q-Learning Netwok (DQN)，基础理论来自于这篇论文。基础理论部分，参考这篇笔记和这篇笔记。下面给出最核心的强化学习公式：YtDoubleQ=Rt+1+γQ^(St+1,argmaxaQ(St+1,a))Y_{t}^{DoubleQ} = R_{t+1}+\gamma \hat{Q}\left(S_{t+1},\mathop{argmax}_...

2019-04-11 23:54:02 2767

原创强化学习DQN算法实战之CartPole

简介这篇笔记主要是记录了Deep Q-Learning Network的开发过程。开发环境是：Ubuntu18.04 、tensorflow-gpu 1.13.1 和 OpenAI gym其中，这篇笔记记录了深度学习的开发环境。安装完成后，在虚拟环境执行pip install gym安装界面环境。强化学习的一个困难的地方，在于数据收集和环境描述。而 OpenAI的gym给我们提供了一个非常强...

2019-04-10 23:51:15 4565

原创 Ubuntu18.04 + CUDA10.0 + tensorflow-gpu 安装过程

简介这篇博客Ubuntu16.04+CUDA9+tensorflow的安装流程。不过，随着软件不断更新，现在Ubuntu18.04逐渐成为客户端的主流，加上tf开始支持CUDA10，在这里在更新一下教程。看一下tensorflow官方版本的支持：确定安装1.13.1的版本安装CUDA10.0下载CUDA10：https://developer.nvidia.com/cuda-10.0-...

2019-04-10 12:02:01 14733 3

原创强化学习的数学基础4---Q-Learning进阶

Asynchronous Advantage Actor-Critic (A3C)回顾Policy Gradient的梯度参数：∇Rˉθ≈1N∑n=1N∑t=1Tn(∑t′=tTnrt′−trt′n−b)∇log⁡pθ(atn∣stn)\nabla \bar{R}_{\theta}\approx \frac{1}{N}\sum_{n=1}^{N}\sum_{t=1}^{T_n}\left(\...

2019-04-07 14:04:53 658

原创强化学习的数学基础3---Q-Learning

Q-Learning基础基础知识在之前的笔记关于Policy Gradient和PPO方法中，需要学习的是某个策略π\piπ。给定出一个策略网络π\piπ，然后令计算机通过不断地训练策略网络，来实现智能。训练的过程中，更新迭代的也是策略网络的参数。而Q-Learning中，不是直接训练策略网络π\piπ，而是给学习一个Crtic，该Critic用于评估Agent做出的每个选择的评估值。...

2019-04-07 11:38:38 1050

原创强化学习的数学基础2---PPO算法

强化学习的数学基础2—PPO系列算法这篇笔记来自于李宏毅老师的公开课PPO算法全称是Proximal Policy Optimization算法。该类算法是为了解决Policy Gradient算法速度慢的问题。先给出两个学习的概念：On-Policy学习：学习的Agent和与环境互动的Agent是同一个。可以理解为Agent一边互动一边学习。Off-Policy学习：学习的Agent...

2019-04-06 17:58:37 4361 1

原创强化学习数学基础1---Policy Gradient

强化学习基础数学基础1这篇笔记由李宏毅老师的强化学习公开课整理而来强化学习的基本步骤：Step 1：定义一个Neural Network作为一个ActorStep 2：定义评估函数，有些评估函数可能也是一个策略网络Step 3：选择或者训练出一个最佳的函数作为Actor和评估函数强化的学习的Actor是一个Neural Network，把环境作为输入，输出的是当前环境下所有选择的概...

2019-04-06 15:45:46 605

原创 Win10应用商店无法连接解决方案

win10重装系统后，出现了应用商店无法连接的状态，试了很多方式，没想到这个是最有用的。先给出原文链接：https://link.zhihu.com/?target=https%3A//answers.microsoft.com/zh-hans/windows/forum/all/microsoft-store/990fe478-7e46-465e-ae87-a45d4381652f打开IE浏览...

2019-04-05 11:32:49 3422

原创 vim打造成golang的IDE

在这篇博客中，介绍了把vim打造成C++IDE的方法。Golang有更好的vim-go插件，因此重新把vim配置为Golang的IDE。安装Vundle插件管理工具：在~目录下，执行：git clone https://github.com/VundleVim/Vundle.vim.git ~/.vim/bundle/Vundle.vim命令。在~目录下新建或者重写.vimrc文件，输入：...

2019-04-03 13:15:18 3576

code reading

Coding Reading 英文原书，主要讲述了高效阅读源代码的方式。磨刀不误砍柴工，很有学习的价值

2018-06-07

BTree数据结构课程设计C++版

BTree数据结构课程设计C++版，完整的过程和C++源代码，包括算法的源代码等。C++代码可以直接运行。

2018-01-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

Erick Lv的笔记