强化学习
看到的reinforcement learning相关的内容
chaiiiiiiiiiiiiiiiii
专注摸鱼二十年
展开
-
david silver强化学习第七讲latex公式
写周报用的latex公式记录一下:∇θJ(θ)=Eπθ[∇θlogπθ(s,a)Qπθ(s,a)]\nabla _\theta J(\theta)=E_{\pi_\theta}[\nabla \theta log_{\pi_\theta}(s,a)Q^{\pi_\theta}(s,a)]∇θJ(θ)=Eπθ[∇θlogπθ(s,a)Qπθ(s,a)]...原创 2020-04-17 21:32:54 · 387 阅读 · 0 评论 -
论文Reinforcement Knowledge Graph Reasoning for Explainable Recommendation笔记;可解释的推荐系统
Reinforcement Knowledge Graph Reasoning for Explainable Recommendationabstract与大多数现有的方法不同,这篇文章致力于实现明确的可解释推荐,在知识图谱中得到明确的理由从而进行推荐。提出了一个 Policy-Guided Path Reasoning(PGPR)方法提出了四个主要贡献,在introduction又...原创 2020-04-06 18:48:35 · 2745 阅读 · 2 评论 -
conversational recommender system论文笔记;推荐系统(recommender system)+对话系统(dialogue system)
Conversational Recommender SystemYuemingSun,YiZhangabstract在目前的解决方案中,基于单轮的即时搜索引擎和传统的多轮对话系统(single round adhoc search engine or traditional multi round dialog system)存在的问题:只考虑用户在当前session的输入,忽略用户的...原创 2020-04-02 23:13:45 · 1985 阅读 · 0 评论 -
Reinforcement-Learning 多臂老虎机问题
多臂老虎机(Multi-armed bandit)问题在RL中关于exploration和exploitation的经典平衡问题在最初的关于该问题的学习中,关于此问题的问题描述总是不是很清楚,在这里记一下。具体采用的方法还没太看懂,之后再加。问题描述多臂老虎机是一个有多个拉杆的赌博机,每一个拉杆的真实中奖几率不同。要求做到如何在有限的游戏次数内选择不同的拉杆,得到最多的收益。假设老虎机有...原创 2019-12-05 22:02:07 · 129 阅读 · 0 评论