ahfranck-CSDN博客

原创 David silver 的 reinforcement learning 课程笔记（二）：马尔科夫决策过程

最近在学增强学习，边看课程视频编写的总结。希望和大家一起讨论学习…Markov Process状态 ss是马尔科夫的但且仅当: P(S(t+1)|St）=P(St+1|S1,...,St)P(S_{(t+1)}|S_t）=P(S_{t+1}|S_1,...,S_t) 一个马尔科夫过程可以用一个二元组(S,P) (S,P) 定义，其中S为有限的状态的集合，P为转移矩阵。对于一个马尔科夫过程一个样

2017-02-27 21:27:11 664

删数得最大数

【问题描述】给定一个r位(r<1000)正整数C，去掉其中任意s个数字后将剩余的数字按原来的左右顺序组成一个新的正整数，使得新组成的数的值最大。【输入形式】从标准输入读入n+1行，其中第一行是正整数s(s<800)，以下n行是正整数C的各位数字，以及可能的空格符和换行符。【输出形式】将计算结果写到标准输出上，每50个数字一行，每5个数字之间由一个空格符分隔。【输入样例1】 2 123 321

2013-11-24

小数，无限循环小数化为分数。【问题描述】将给定的小数转换为最简分数。【输入形式】从标准输入读入给定的小数。输入有两种形式： 1. 有限小数，如2.12，5.69，0.618; 2. 无限循环小数，如0._1，3.5_142851，其中“_”后的数字表示循环节。小数部分(不含下划线)的位数不超过8位。【输出形式】将结果写到标准输出，占一行。形式为：x/y。x、y为整数，分别表示分子与分母。【输入样例】 3.5_142857

2013-11-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人