算法
文章平均质量分 97
@dream
这个作者很懒,什么都没留下…
展开
-
TFIDF
目录1.TFIDF算法原理2. TFIDF 概率模型解释3. TFIDF python 实战1.TFIDF算法原理TFIDF (term frequency - inverse document frequency)主要思想:如果某个词或者短语在一篇文章中出现的频率TF较高,而且在其他文章中出现的频率较少,则认为此词或短语具有很好的类别区分能力。计算公式:有语料库DDD,文章表示为 d...原创 2019-09-14 16:32:36 · 551 阅读 · 0 评论 -
PageRank算法
目录一 PageRank算法概述二 PageRank的两个基本假设三 PageRank算法原理3.1 算法步骤3.2 基本思路3.3 公式形成思路四 参考网页一 PageRank算法概述PageRank, 是谷歌创始人拉里 ⋅\cdot⋅佩奇和谢尔盖⋅\cdot⋅布林于1997年构建早期的搜索系统原型时提出的链接分析算法。PageRank是Google用于标识网页的等级/重要性的一种方法,...原创 2019-09-14 16:48:05 · 1683 阅读 · 0 评论 -
排序算法总结
排序总结这里介绍了插入排序(直接、二分法),希尔排序, 直接选择排序,堆排序,冒泡排序,快速排序, 归并排序 排序算法。问题描述:假设元素为整数,按照从小到大的顺序排序。一 直接插入排序1. 描述...原创 2019-09-14 18:01:17 · 335 阅读 · 0 评论 -
Chapter 3. The Reinforcement Learning Problem
what is the reinforcement learning problem ?The reinforcement learning problem is meant to be a straightforward framing of the problem of learning from interaction to achieve a goal.what is a reinf...翻译 2019-09-19 22:18:05 · 406 阅读 · 0 评论 -
Chapter 4. Dynamic Programming
本章所介绍的dynamic programming 指的是在给出一个可以把环境视为马尔科夫决策过程的完美的模型下,用以计算最优策略的一系列的算法。传统的DP算法对模型和计算代价要求较高。其它的解决强化学习的算法可以看成以较小的计算成本、无需完美模型的代价来试图实现DP算法相同的效果。假设 环境是 a finite MDP。形象化描述是:状态空间和动作空间都是有限的,即SSS and A(s)...翻译 2019-09-19 23:09:23 · 155 阅读 · 0 评论 -
Chapter 5. Monte Carlo Methods
Monte Carlo Methods预测value functions 和 发现最优策略的学习算法。无需对环境有完全的掌控。Monte Carlo Methods 只需要经验即可。(经验指的是与环境实时或者模拟交互中的状态、动作、奖励的序列信息。)不需要对环境信息有先验知识。Monte Carlo Methods 是基于平均采样的思想来解决强化学习问题。为了保证结果是有效的,我们认为M...翻译 2019-09-19 23:33:08 · 385 阅读 · 0 评论 -
Chapter 6. Temporal-Difference Learning
时序差分算法(TD)是强化学习中的核心和新颖的算法。TD特点:(1).无需完整的环境模型;(2).bootstrap(判断一个状态的值要依赖其它状态的估计值)。是 DP 和 MC 的结合。policy evaluation: prediction problem.control problem: find an optimal policy.###6.1 TD Predictio...翻译 2019-09-19 23:43:59 · 307 阅读 · 0 评论