九月学习笔记 (FM、一些论文阅读、代码)

2020.09.16

FM 因子分解机

在这里插入图片描述
代码:

  1. 读取数据用pd.read_csv()
  2. np.empty(shape[, dtype, order]) 依给定的shape, 和数据类型 dtype, 返回一个一维或者多维数组,数组的元素不为空,为随机产生的数据。
  3. 截取固定间隔数据 [start :: step] 从start开始,每隔step取值
  4. lambda 匿名函数 g = lambda x:x+1 冒号左边为输入,右边为输出

The Criteo Display Ads dataset 是kaggle上的一个CTR预估竞赛数据集。里面包含13个数值特征I1-I13和26个类别特征C1-C26。

2021.09.18

  1. 交互式推荐系统:an IRS consecutively recommends items to individual users and receives their feedbacks which makes it possible to refine its recommendation policy during such interactive processes.(单个用户的反馈)
  2. 对话推荐系统:① 交互式推荐系统可以视为 CRSs 的一种早期雏形,目前仍然有交互式推荐系统的研究。大多数交互式推荐系统,都遵循两个步骤:1)推荐一个列表;2)收集用户对于该推荐的反馈。然后往复循环这两个步骤。
    ② 然而这并不是一种好的交互模式。首先,这种交互太单调了,每轮都在循环推荐和收集反馈,很容易让用户失去耐心;其次,一个好的推荐系统应该只在其置信度比较高、信心比较充足的情况下进行推荐;最后,由于商品的数量巨大,用推荐商品的方式来了解用户的兴趣喜好,是低效的。
    ③ 而 CRSs 引入了更多的交互模式。例如,其可以主动问用户问题,例如问关于商品属性的问题:“你喜欢什么样颜色的手机?”“你喜欢关于摇滚类乐曲吗?”丰富的交互模式克服了交互式推荐系统的三个问题,用更高效的方式来进行交互,从而快速获得用户的兴趣爱好,在信心比较充足的情况下,才作出推荐。
    ④ CRSs 的一个核心任务是关注如何问问题,即什么时候问问题,什么时候做推荐。

论文阅读

这段时间找了一些RL+RS的论文阅读,以下是随便写的笔记

Interactive Recommender System via Knowledge Graph-enhanced Reinforcement Learning

利用知识图谱的先验知识 (i) guide the candidate selection for better candidate item retrieval, (ii) enrich the representation of items and user states, and (iii) propagate user preferences among the correlated items over KG to deal with the sparsity of user feedback.

Hierarchical Reinforcement Learning for Integrated Recommendation

  1. 将推荐分为两部分,先是channel推荐,再是item推荐(The low-level agent is a channel selector, which generates a personalized channel list. The high-level agent is an item recommender, which recommends specific items from heterogeneous channels under the channel constraints.)还设计了多种reward函数,四种损失函数; 2. 综合推荐:不局限于某个领域,而是同时推荐更多样化的东西heterogeneous items。Integrated recommendation is proposed to simultaneously recommend these heterogeneous items from different sources (i.e., channels) in a single recommendation system。
  2. 挑战:不同channel( news, article, long video and short video)用到了不同的排序方式,怎么融合呢?怎么衡量用户对channel的喜好程度和用户对item的喜好;任务是rank。
  3. 输入输出:The inputs are heterogeneous items from different channels, and the output is a recommended list (i.e., top 10 items)

可参考的思路:①设立多种reward指标 ② low-level和high-level
用到了DDPG,Actor-Critic
采用卷积神经网络作为策略函数 μ μ μ Q Q Q函数的模拟,即策略网络和Q网络;然后使用深度学习的方法来训练上述神经网络。

DEAR: Deep Reinforcement Learning for Online Advertising Impression in Recommender Systems

  1. 提出广告策略,研究何时插入广告能实现最大化长期收入((i) whether to interpolate an ad or not in the recommendation list, and if yes, (ii) the optimal ad and (iii) the optimal location to interpolate.);目标:在最大化广告收益的同时最小化广告对用户体验的负面影响。
  2. 用到了Deep-Q network
  3. 可参考:reward?看看怎么最大化广告收益的,用户负面影响?怎么衡量的呢

Reinforcement Recommendation with User Multi-aspect Preference

  1. 对用户的多方面偏好进行建模;也用到了Actor-Critic;啊,居然没有模型图

User Response Models to Improve a REINFORCE Recommender System

  1. 用户响应建模;涉及到辅助任务

Reinforcement Learning with a Disentangled Universal Value Function for Item Recommendation

  1. 总结了强化学习用于推荐的几点挑战:In this paper, we summarize three key practical challenges of large-scale RL-based recommender systems: massive state and action spaces, high-variance environment, and the unspecific reward setting in recommendation. All these problems remain largely unexplored in the existing literature and make the application of RL challenging
  2. model-based reinforcement learning framework
  3. 好像有点解耦的意思,不是针对某个应用

2019.09.23

  1. pip安装时报错check_hostname requires server_hostname发现是因为挂了vpn,关掉就好啦
  2. 指定随机种子:
  torch.manual_seed(seed)
  torch.cuda.manual_seed(seed)
  torch.cuda.manual_seed_all(seed)
  np.random.seed(seed)
  random.seed(seed)
  torch.set_deterministic(True)
  torch.backends.cudnn.benchmark = False
  torch.backends.cudnn.deterministic = True
  1. 报错module 'gym.envs.box2d' has no attribute 'LunarLander',应该是包没下好

2021.09.30

  1. 使用tailf命令查看文件时出错Command 'tailf' not found,换成tail -f就可以了。
  2. 查看服务器GPU运行情况nvidia-smi
  3. 查看资源占用情况top
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值