![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
深度学习
文章平均质量分 94
xyt_369587353
专注数据挖掘和深度强化学习,github地址:https://github.com/demomagic
展开
-
深度学习与推荐系统1——综述
点击率(click-through rate, CTR)是互联网公司进行流量分配的核心依据之一。比如互联网广告平台,为了精细化权衡和保障用户、广告、平台三方的利益,准确的 CTR 预估是不可或缺的。CTR 预估技术从传统的逻辑回归,到近三年大火的深度学习,新的算法层出不穷:DeepFM, NFM, DIN, AFM, DCN...本文将从 FM 及其与神经网络的结合出发,能够迅速贯穿很多深度学习 CTR 预估网络的思路,从而更好地理解和应用模型。原创 2020-03-17 18:32:45 · 1235 阅读 · 0 评论 -
深度强化学习8——Actor-Critic(AC、A2C、A3C)
上篇文章我们讲到Policy Gradient可能给出的action分布是比较极端的,导致很多状态无法进行探索,陷入局部最优,本篇我们将讨论策略(Policy Based)和价值(Value Based)相结合的方法:Actor-Critic算法。在讨论Actor-Critic算法前,我们回顾一下Policy Gradient方法的完整流程,如下图所示:先采集相应的数据包括状态、动作和...原创 2019-11-17 22:12:06 · 10068 阅读 · 3 评论 -
深度强化学习7——策略梯度(Policy Gradient)
前面讲到的DQN系列强化学习,主要对价值函数进行了近似表示,基于价值来学习。这种Value Based强化学习方法在很多领域都得到比较好的应用,但是Value Based强化学习方法也有很多局限性,主要面临以下问题:对连续动作的处理能力不足。DQN之类的方法一般都是只处理离散动作,无法处理连续动作,实际上value-based方法在训练时需要在某个状态下选取使Q值最大的动作,这相当于在所有连续...原创 2019-11-13 01:06:54 · 2229 阅读 · 1 评论 -
深度强化学习5——Deep Q-Learning(DQN)
之前大量叙述了强化学习的基本原理,至此才开始真正的深度强化学习的部分。2013和2015年DeepMind的Deep Q Network(DQN)它用一个深度网络代表价值函数,依据强化学习中的Q-Learning,为深度网络提供目标值,对网络不断更新直至收敛。用DQN从玩各种电子游戏开始,直到训练出阿尔法狗打败了人类围棋选手。本篇文章也主要围绕DeepMind的论文Playing Atari wi...原创 2019-11-05 20:19:08 · 5783 阅读 · 0 评论 -
深度强化学习1——强化学习到深度强化学习
从事深度强化学习有一段时间了,整理了网上的一些资料,写几篇博客作为知识的梳理和总结。开讲前,先给大家看个深度强化学习的例子,下面是深度学习cnn和强化学习结合玩吃豆人的游戏看图像我们会发现吃豆人会,吃掉一闪一闪的豆子来消灭怪物,仔细观察会发现,经过训练的吃豆人,甚至会停在某个角落来躲避怪物,这是一个非常有趣的现象,后面会附有个人深度强化学习项目地址。下面我们开始正式介绍强化学习。一...原创 2018-10-05 22:04:43 · 65717 阅读 · 5 评论 -
深度强化学习2——马尔科夫决策过程(MDP)
本文讲解思路从马科夫过程(MP) 到马尔科夫奖励过程(MRP)最后到马尔科夫决策过程(MDP)。首先我们要了解马尔科夫性,在上一章1.3我们也提到,当前状态包含了对未来预测所需要的有用信息,过去信息对未来预测不重要,该就满足了马尔科夫性,严格来说,就是某一状态信息包含了所有相关的历史,只要当前状态可知,所有的历史信息都不再需要,当前状态就可以决定未来,则认为该状态具有马尔科夫性。下面用公式来描...原创 2018-10-07 20:08:52 · 10619 阅读 · 2 评论