自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 资源 (1)
  • 收藏
  • 关注

原创 【资源分享】一个超级方便的看电子书方法推荐

【资源分享】一个超级方便的看电子书方法推荐1.使用电子书网站 Zlibrary下载各类资源Zlibrary全球最大数字图书馆,所有图书免费 | Tbox导航Zlibrary被称为全球最大的数字图书馆,里面包含 9,826,996 本电子书,84,837,646 篇期刊文章。从各种知名文学著作,理工学科,人文艺术、到学术论文等应有尽有!支持PDF、epub、mobi等多种格式图书资源下载绝对是你找书的不二选择。【必要时请科学上网】主域名:https://zh.z-lib.or..

2022-03-19 10:32:27 2370

原创 【学习笔记】bandit 和RL 的对比

bandit和RL的对比sutton强化学习第二版第二章强化学习和其他机器学习方法最大的不同,在于前者的训练信号是用来评估给定动作的好坏的,而不是通过正确动作范例来进行直接的指导。这使得主动地反复试验以试探出好的动作变的很有必要。单纯的“评估性反馈”只能表明当前采取的动作的好坏程度,但是却无法确定当前采取的动作是不是所有可能性中最好的或者最差的。另一方面,单纯的“指导性反馈”表示的是应该选择的正确动作是什么,并且这个正确动作和当前实际采取的动作无关,这是有监督学习的基本方式,其被...

2021-07-15 13:00:23 313

翻译 【论文翻译&笔记】A contextual bandit bake-off

实际评估算法的优劣论文 使用监督数据集数据集介绍本节给出我们研究中考虑的成本敏感分类数据集的一些细节。1多分类的数据集。我们考虑来自openml的525个多分类数据集。org平台,包括医疗、基因表达、文本、感官或合成数据等。表6提供了关于这些数据集的一些统计数据。这些还包括UCI数据库中考虑的8个分类数据集(Foster等人,2018年)。完整的数据集列表如下所示。对对多分类数据集的描述性统计按照action数量样本量特征量和PV值进行划分多标签数据集...

2021-07-15 12:58:11 150

翻译 【论文翻译&笔记】Hierarchical Reinforcement Learning for Course Recommendation in MOOCs

Hierarchical Reinforcement Learning for Course Recommendation in MOOCs亮点:先对数据进行分析关键的挑战是如何在没有直接监督的情况下确定哪些历史课程是噪音,即识别影响推荐效果的课程。基于注意力机制推荐文章的改进强化学习方法摘要:大规模网络开放课程(MOOCs)的普及,需要一种有效的个性化课程推荐方式。最近的基于注意的推荐模型在推荐不同的目标课程时能够区分不同历史课程的效果。但是,当用户对许多不同的课程..

2021-07-15 12:56:22 724

翻译 【论文翻译&笔记】Test & Roll: Profit-Maximizing A/B Tests

Feit E M, Berman R. Test & Roll: Profit-Maximizing A/B Tests[J]. Marketing Science, 2019: 1038-1058.摘要:营销人员通常使用A/B测试作为一种工具,在测试阶段比较营销处理,然后将性能更好的处理部署到剩余的消费者群体中。虽然这些测试传统上是通过假设检验来分析的,但我们将其重新定义为在测试的机会成本(某些客户接受次优治疗)和向其余人群部署次优治疗相关的潜在损失之间的明确权衡。我们得到了利

2021-07-15 12:54:29 187

翻译 【论文翻译&笔记】Seamlessly Unifying Attributes and Items: Conversational Recommendation for Cold-Start User

Li S, Lei W, Wu Q, et al. Seamlessly unifying attributes and items: Conversational recommendation for cold-start users[J]. arXiv preprint arXiv:2005.12979, 2020.摘要: 像协同过滤这样的静态推荐方法存在为冷启动用户执行实时个性化的固有局限性。在线推荐,例如,多臂强盗方法,通过交互式地探索用户在线偏好,并进行探索利用(EE)权衡,解决了这.

2021-07-15 12:50:41 384

原创 pycharm 解决鼠标点击会一直字体放大问题

pycharm 解决鼠标点击会一直字体放大问题可能是pycharm版本的问题,之前无意中设置了一个奇怪的字体放大功能,单击鼠标就会放大字体,太麻烦了!网上根本找不到这个问题,折磨了好几天已经快习惯这种操作了今天终于设置好了,记录一下。如果有这个困扰的同学可以参考一下~pycharm字体放大的设置File —> setting —> Keymap —>在搜寻框中输入:increase—> Increase Font Size—> 取消右边 one click...

2020-09-01 15:37:24 1594 4

翻译 论文翻译:A Tutorial on Thompson Sampling

目录摘要1 简介2 贪婪决策3 Bernoulli Bandit的汤普森抽样4 一般汤普森抽样5 近似抽样6 建模方面的考虑7 进一步的例子8 为何有效,合适失效,替代方法摘要本教程涵盖了算法及其应用,通过一系列的例子来说明概念,包括伯努利老虎机问题、最短路径问题、产品分类、推荐、使用神经网络的主动学习和马尔可夫决策过程中的强化学习。目的:教程的目的...

2020-04-01 21:40:25 1636

1707.02038.pdf

本教程涵盖了算法及其应用,通过一系列的例子来说明概念,包括伯努利老虎机问题、最短路径问题、产品分类、推荐、使用神经网络的主动学习和马尔可夫决策过程中的强化学习。

2020-04-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除