自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

谢宜廷的博客

目前从事数据挖掘和深度强化学习开发,希望能分享并记录学习成果

  • 博客(11)
  • 收藏
  • 关注

原创 深度学习与推荐系统1——综述

点击率(click-through rate, CTR)是互联网公司进行流量分配的核心依据之一。比如互联网广告平台,为了精细化权衡和保障用户、广告、平台三方的利益,准确的 CTR 预估是不可或缺的。CTR 预估技术从传统的逻辑回归,到近三年大火的深度学习,新的算法层出不穷:DeepFM, NFM, DIN, AFM, DCN...本文将从 FM 及其与神经网络的结合出发,能够迅速贯穿很多深度学习 CTR 预估网络的思路,从而更好地理解和应用模型。

2020-03-17 18:32:45 1382

原创 深度强化学习9——Deep Deterministic Policy Gradient(DDPG)

从名字上看DDPG是由D(Deep)+D(Deterministic)+PG(Policy Gradient)组成,我们在深度强化学习7——策略梯度(Policy Gradient)已经讲过PG,下面我们将要了解确定性策略梯度(Deterministic Policy Gradient,简称DPG)。Deterministic Policy Gradient(DPG)为什么需要确定性策略梯...

2019-11-25 22:19:21 4483

原创 深度强化学习8——Actor-Critic(AC、A2C、A3C)

上篇文章我们讲到Policy Gradient可能给出的action分布是比较极端的,导致很多状态无法进行探索,陷入局部最优,本篇我们将讨论策略(Policy Based)和价值(Value Based)相结合的方法:Actor-Critic算法。在讨论Actor-Critic算法前,我们回顾一下Policy Gradient方法的完整流程,如下图所示:先采集相应的数据包括状态、动作和...

2019-11-17 22:12:06 11499 3

原创 深度强化学习7——策略梯度(Policy Gradient)

前面讲到的DQN系列强化学习,主要对价值函数进行了近似表示,基于价值来学习。这种Value Based强化学习方法在很多领域都得到比较好的应用,但是Value Based强化学习方法也有很多局限性,主要面临以下问题:对连续动作的处理能力不足。DQN之类的方法一般都是只处理离散动作,无法处理连续动作,实际上value-based方法在训练时需要在某个状态下选取使Q值最大的动作,这相当于在所有连续...

2019-11-13 01:06:54 2406 1

原创 深度强化学习6——DQN的改进方法

在上一篇文章我们提到了DQN还存在的问题:1)目标Q值的计算是否准确?全部通过max Q来计算有没有问题?2)随机采样的方法好吗?按道理不同样本的重要性是不一样的。3)Q值代表状态,动作的价值,那么单独动作价值的评估会不会更准确?相应的改进方法是Double DQN、Prioritised Replay DQN、Dueling DQN,下面我们将一一介绍这些方法。Doub...

2019-11-06 19:42:58 6551

原创 深度强化学习5——Deep Q-Learning(DQN)

之前大量叙述了强化学习的基本原理,至此才开始真正的深度强化学习的部分。2013和2015年DeepMind的Deep Q Network(DQN)它用一个深度网络代表价值函数,依据强化学习中的Q-Learning,为深度网络提供目标值,对网络不断更新直至收敛。用DQN从玩各种电子游戏开始,直到训练出阿尔法狗打败了人类围棋选手。本篇文章也主要围绕DeepMind的论文Playing Atari wi...

2019-11-05 20:19:08 6505

原创 深度强化学习4——时序差分学习(TD)的Q learning和Sarsa learning

前面我们讲到了蒙特卡洛方法在未知环境下求解马尔科夫决策过程(MDP),然而蒙特卡洛方法也有自身的限制,蒙特卡洛方法就是反复多次试验,求取每一个实验中每一个状态s的值函数,也就是说,只要这个MDP是有终点的,我们就可以计算出每一个状态下的Return,也就是说蒙特卡罗法通过采样若干经历完整的状态序列(episode)来估计状态的真实价值,所谓的经历完整,就是这个序列必须是达到终点的。比如下棋问题分出...

2019-11-05 15:54:26 4695

原创 深度强化学习3——蒙特卡罗方法(MC)

前面我们介绍了用动态规划求解马尔科夫决策过程(MDP),然而需要已知环境信息,然而现实环境很多都是未知的,我们会用什么方法求解呢?蒙特卡罗方法(MC),时序差分学习(TD)都可以求解未知环境下的强化学习问题,本章主要介绍蒙特卡罗方法。蒙特卡洛方法基本思想当我们无法得到模型内容时,就需要通过不断模拟的方式得到大量相关的样本,并通过样本得到我们预期得到的结果,通常蒙特卡罗方法可以粗略地分成两类...

2019-10-07 22:24:31 4712

原创 深度强化学习2——马尔科夫决策过程(MDP)

本文讲解思路从马科夫过程(MP) 到马尔科夫奖励过程(MRP)最后到马尔科夫决策过程(MDP)。首先我们要了解马尔科夫性,在上一章1.3我们也提到,当前状态包含了对未来预测所需要的有用信息,过去信息对未来预测不重要,该就满足了马尔科夫性,严格来说,就是某一状态信息包含了所有相关的历史,只要当前状态可知,所有的历史信息都不再需要,当前状态就可以决定未来,则认为该状态具有马尔科夫性。下面用公式来描...

2018-10-07 20:08:52 10956 2

原创 深度强化学习1——强化学习到深度强化学习

从事深度强化学习有一段时间了,整理了网上的一些资料,写几篇博客作为知识的梳理和总结。开讲前,先给大家看个深度强化学习的例子,下面是深度学习cnn和强化学习结合玩吃豆人的游戏看图像我们会发现吃豆人会,吃掉一闪一闪的豆子来消灭怪物,仔细观察会发现,经过训练的吃豆人,甚至会停在某个角落来躲避怪物,这是一个非常有趣的现象,后面会附有个人深度强化学习项目地址。下面我们开始正式介绍强化学习。一...

2018-10-05 22:04:43 67625 5

原创 大数据实战:elasticsearch+kibana+logstash+xpack

一、前言        在安装前我们要了解一下什么是Elasticsearch+logstash+kibana。Elasticsearch是一个实时分布式搜索和分析引擎,

2018-06-11 18:32:20 6017 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除