ZesenYang-CSDN博客

原创强化学习：Sarsa与Q-learning之间的关系

Sarsa算法在给定环境的起始状态s，并且初始化策略πϵ−greedy\pi^{\epsilon-greedy}πϵ−greedy和Q值后，agent使用该策略与环境交互，产生动作a、新状态s’和奖励回馈r：a=πϵ−greedy(s)s′,r=environment(a)a=\pi^{\epsilon-greedy}(s)\\s&#x27;,r=environment(a)a=πϵ...

2018-11-17 14:28:11 532

原创算法练习-剑指Offer（第二版）面试题14：剪绳子

给你一根长度为n的绳子，请把绳子剪成m段 (m和n都是整数，n&gt;1并且m&gt;1)每段绳子的长度记为k[0],k[1],…,k[m].请问k[0]k[1]…*k[m]可能的最大乘积是多少？例如，当绳子的长度为8时，我们把它剪成长度分别为2,3,3的三段，此时得到的最大乘积是18.def base(n): if n == 1: return 1 elif ...

2018-11-09 02:13:01 244

原创置信区间

置信区间是指由样本统计量所构造的总体参数的估计区间。在统计学中，一个概率样本的置信区间（Confidence interval）是对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。置信区间给出的是被测量参数的测量值的可信程度，即前面所要求的“一个概率”。...

2018-08-27 00:02:28 5629

原创 softmax函数

用自己的方式讲清楚技术

2018-08-26 13:33:36 231

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 强化学习：Sarsa与Q-learning之间的关系

原创 算法练习-剑指Offer（第二版）面试题14：剪绳子

原创 置信区间

原创 softmax函数

空空如也

空空如也

原创强化学习：Sarsa与Q-learning之间的关系

原创算法练习-剑指Offer（第二版）面试题14：剪绳子

原创置信区间