强化学习笔记(2):Sarsa 与 Sarsa(lambda)

上篇文章中介绍了Q-Learning算法, 而Sarsa 和 Q-Learning是非常类似的。在决策环节,二者是一样的, 都是基于Q 表,挑选值较大的动作值施加在环境中来换取回报. 但是不同的地方在于 Sarsa 的更新方式是不一样的。 ...

2018-05-31 13:24:30

阅读数 4547

评论数 0

强化学习笔记(1):Q-Learning

考虑下面这个例子:假如我们想让一只老鼠学会走迷宫,往往会在迷宫的几个关键地点放上奶酪,老鼠每次走到关键点就会获得奖励,久而久之,老鼠就能学会快速找到迷宫出口,这就是强化学习的一个例子。 强化学习的关键要素包括:环境(environment),回报(reward),动作(action ),状态...

2018-05-30 19:01:24

阅读数 1489

评论数 0

遗传算法 (Genetic Algorithm)

1. 求最值问题常用方法 爬山法:从搜索空间中随机产生邻近的点,从中选择对应解最优的个体,替换原来的个体,不断 重复上述过程。因为只对“邻近”的点作比较,所以目光比较“短浅”,常常只能收敛到离开初始位置比较近的局部最优解上面。对于存在很多局部最优点的问题,通过一个简单的迭代找出全局最优解的机会...

2018-04-24 16:39:02

阅读数 1724

评论数 0

pandas基础教程

首先引入相关模块: import numpy as np import pandas as pd 1. DataFrame 1.1 创建Series index不指定则从0开始编号 s = pd.Series([1, 2, 3, np.nan], index=['A', '...

2018-04-15 23:33:47

阅读数 1873

评论数 0

Numpy基础教程

引入numpy 模块: import numpy as np 1. 创建array 1.1 列表转换为数组,查看属性: array = np.array([[1,2,3],[4,5,6]], dtype = np.float) print(array) print(arr...

2018-04-02 23:57:42

阅读数 1144

评论数 0

【35-40】LeetCode:Python解题

41. First Missing Positive【Hard】 Given an unsorted integer array, find the first missing positive integer. For example, Given [1,2,0] return 3, a...

2018-03-19 17:47:09

阅读数 734

评论数 0

【26-30】LeetCode:Python解题

26. Remove Duplicates from Sorted Array【Easy】 Given a sorted array, remove the duplicates in place such that each element appear only once and retur...

2018-01-27 23:08:24

阅读数 1283

评论数 0

Tensorflow - Tutorial (9) : GAN生成图片

1. 介绍 本文利用Tensorflow实现生成式对抗网络GAN,关于GAN的详细介绍可参考:生成式对抗网络(Generative Adversarial Networks,GANs)。训练所使用的MNIST数据集包含了各种手写数字图片,图片的格式与数据预处理代码input_data.py的介...

2018-01-08 16:35:29

阅读数 2831

评论数 2

生成式对抗网络(Generative Adversarial Networks,GANs)

1. 简介 首先简要介绍一下生成模型(Generative model)与判别模型(Discriminative mode)的概念: 生成模型:对联合概率进行建模,从统计的角度表示数据的分布情况,刻画数据是如何生成的,收敛速度快,例如朴素贝叶斯,GDA,HMM等。 判别模型:对条件概率P(Y...

2018-01-04 15:40:00

阅读数 26497

评论数 1

【21-25】LeetCode:Python解题

21. Merge Two Sorted Lists【Easy】 Merge two sorted linked lists and return it as a new list. The new list should be made by splicing together the nod...

2017-12-16 11:46:14

阅读数 1137

评论数 0

【16-20】LeetCode:Python解题

16. 3Sum Closest【Medium】Given an array S of n integers, find three integers in S such that the sum is closest to a given number, target. Return the s...

2017-12-09 12:00:01

阅读数 960

评论数 0

【11-15】LeetCode:Python解题

11. Container With Most Water【Medium】Given n non-negative integers a1, a2, …, an, where each represents a point at coordinate (i, ai). n vertical lin...

2017-12-09 11:52:57

阅读数 873

评论数 0

【6-10】LeetCode:Python解题

6. ZigZag Conversion【Medium】The string “PAYPALISHIRING” is written in a zigzag pattern on a given number of rows like this: (you may want to display ...

2017-12-09 11:47:01

阅读数 836

评论数 0

【1-5】LeetCode:Python解题

1. Two Sum【Easy】Given an array of integers, return indices of the two numbers such that they add up to a specific target.You may assume that each inp...

2017-12-09 11:42:04

阅读数 1870

评论数 0

判断有向图是否有环及环中元素

主要思路: dfs+栈。具体来说,遍历图中每个节点,若该节点还未被访问,则调用dfs。在访问节点n时,若该节点不在栈中,则将其入栈,否则说明存在环,并且环中元素为栈中从节点n到栈顶的所有点。 # 输入:第一行为图中的边数,余下行为两个节点组成的边,以空格划分 例: 8 1 2 2 3 3 1...

2017-08-17 13:04:40

阅读数 4142

评论数 4

优化方法总结:SGD,Momentum,AdaGrad,RMSProp,Adam

1. SGDBatch Gradient Descent在每一轮的训练过程中,Batch Gradient Descent算法用整个训练集的数据计算cost fuction的梯度,并用该梯度对模型参数进行更新:Θ=Θ−α⋅▽ΘJ(Θ)\Theta = \Theta -\alpha \cdot \t...

2017-08-06 10:55:40

阅读数 56129

评论数 15

分支限界法

分支限界法(branch and bound method)是求解纯整数规划或混合整数规划问题的经典方法,在上世纪六十年代由Land Doig和Dakin等人提出。这种方法灵活且便于用计算机求解,目前已经成功运用于求解生产进度问题、旅行推销员问题、工厂选址问题、背包问题及分配问题等。1. 基本思想...

2017-07-04 16:57:55

阅读数 4080

评论数 0

Tensorflow - Tutorial (8) : Variables的保存与恢复

1. 主要方法我们在训练一个模型时,常希望保存训练过程中的variables,这些variables通常指的是模型的参数。通过保存这些参数以便下次可以继续进行训练或者基于已有的参数进行测试。Tensorflow针对这一需求提供了Saver类,通过Saver类提供的相关方法可以保存和恢复训练过程中的...

2017-06-06 19:30:00

阅读数 4592

评论数 0

隐马尔可夫模型(HMM)

1. 背景知识1.1随机过程随机过程是随机变量的集合,其在随机变量的基础上引入时间的概念(可简单理解为随机变量关于时间的函数)。例如,x1(t),x2(t),x3(t),x4(t)x_1(t),x_2(t),x_3(t),x_4(t) 都是时间的函数,我们将其称为样本函数,样本函数的集合便是一个随...

2017-06-01 15:08:40

阅读数 7969

评论数 0

算法时间复杂度

1. 算法度量标准算法设计的标准包括以下四个方面 正确性(correctness) 算法应满足用户的具体需求 可读性(readability) 算法应好读,利于读者对算法的理解 健壮性(robustness) 算法有好的容错能力,当输入异常或非法数据时,能够正确应对适当处理,不会产生莫名其妙...

2017-05-09 19:56:21

阅读数 1355

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭