自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(35)
  • 收藏
  • 关注

原创 [论文] pcgrad

定义1:夹角cos<0即为冲突定义2:如果梯度值的相似度高,则值为1,否则趋近于0定义3:多任务梯度∇Lθ∇Lθ的方向上,LL在θ\thetaθ和θ′θ′之间的平均曲率。

2023-12-03 21:56:48 218

原创 [论文综述] 社区发现_1

社区发现是复杂网络问题的一个重要研究领域;

2023-11-19 21:34:48 198

原创 【论文】Group Recommendation

group recmd

2023-11-05 23:05:35 212

原创 [论文] Exploring the Spatiotemporal Features of Online Food Recommendation Service

应用背景:online food recommendation service (OFRS)· 时空特征不是越多越好,精细化筛选可以提升模型效果;· 提出Dynamic Context Adaptation Model。

2023-10-29 22:04:54 105

原创 社区发现算法 louvain

由node和egde形成的网络图中,关系紧密的可以形成一个社区,其内部紧密,与外部连接稀疏。社区发现算法就是要检测网络结构中紧密的社区团。· 用什么可以描述社团的紧密程度:模块度(modularity), louvain算法的核心思想就是最大化模块度。

2023-10-15 22:29:55 471

原创 【论文】重排 PIER

PIER

2023-09-24 22:43:48 126

原创 uncertainty weighted loss

背后的含义是: Loss 大的任务,包含的uncertainty也应该多,而它的权重就应该小一点。典型的例子是二分类任务 + 回归任务的多目标优化,L2 Loss 和交叉熵损失的 Loss 大小与梯度大小的量级和幅度可能差异很大,如果不处理会对优化造成很大干扰。为直接建模的uncertainty,是一个可学习的参数。总 Loss 设计成这样的形式,模型优化过程中会倾向于惩罚高 Loss 而低 公式 的情况(如果一个任务的 Loss 高,同时 公式 又小的话,这一项就会很大,优化算法就会倾向于优化它)。

2023-09-10 22:38:02 1143

原创 【论文】 modeling dual period-varing preferences

user- aware gate: 用户的个人偏好(同一个store, 有的用户偏向包子,有的偏向面条)把full interaction graph 拆成 food-level和 store-level。time-aware gate: 不同时间段的偏好。· 不同时间段的embedding是共享的。edge:US、UO、OS的两两交互。· 构建三元交互数据的图网络 G。再分别拆成四个时间段。

2023-08-27 20:56:48 83

原创 【论文】意图分析 NEON: Living Needs Prediction System in Meituan

我们把10个需求分为到店和到家两类,同时预测需求方式(Way)和具体的需求(Need);feature merging network: 把embedding后的用户特征、时空特征、group特征concat在一起。为了表征不收时空影响的用户偏好特征,直接将embedding前的用户特征放入user preference network。用户的意图识别包括在美团APP上吃、住、娱乐等需求的识别,对下游的个性化推荐有着关键的作用。用户的需求和他在平台上历史的需求之间有差别。需求天然受到时空的影响。

2023-08-20 21:23:51 395

原创 【强化】imitation learning

【强化】imitation learning

2023-08-06 20:13:06 63

原创 【强化】sparse reward

在很多情景下,做很多action可能都不会得到任何reward,只有在终态才会得到reward,这样对agent的学习是非常不利的,下面提出几种方法解决这种sparse reward的问题。

2023-07-30 21:44:27 51

原创 【强化】Q-learning + AC

aargmaxa​QsaQ-learning 在处理连续值的时候会比较不方便,传统的做法:· sample一些离散的action: 无法取到最优· 用梯度上升法逐次求解:计算量大都有一些缺点。μ像高斯分布的均值,Σ像高斯分布的方差。为了最大化Q, 应该让aμs但是用Qlearning处理连续的action仍然不是最好的方法。

2023-07-23 22:07:23 80

原创 【强化】Q-learning advanced tips

tips of q-learning

2023-07-09 22:30:14 62

原创 【强化】Q-learning(basic idea)

在使用TD的方法训练Q的时候,由于有两套参数需要update, 会导致训练不稳定,所以一般采取先freeze t+1部分的网络,只训练t部分的,参数更新多次之后再去update另一边。, 在state s强制使用action a(后续的action是不强制的), 得到的cumulated reward;所以,critic不止可以用来评估policy的好坏,还可以用来决策使用哪个action、找到更好的policy。· 下面这个例子用mc和td的方法计算出来的结果是不一样的。找到Q最大的action,

2023-07-02 19:30:33 90

原创 【论文】STHAN

交通流量预测

2023-06-18 22:29:02 69

原创 【论文】多场景多任务推荐

ICDE 2023 | 多场景多任务学习在美团到店餐饮推荐的实践。

2023-06-11 21:48:51 260

原创 【学习ChatGPT】4. 阅读transformer代码

transformer代码

2023-06-04 19:28:01 68

原创 【学习ChatGPT】 3. PPO

expected reward: 穷举所有trajectory,算出total reward的均值。off-policy: 学习的agent和与环境交互的agent不是同一个。on-policy: 学习的agent和与环境交互的agent是同一个。一个整体reward是正的,但不代表其中每一步都是好的,所以加入credit。与mll的区别就是要乘上一个weight,也就是total reward。导致整个trajectory的reward是正的,那么就要增加在。的reward就是reward的期望值。

2023-05-28 22:50:06 139 1

原创 【运筹】0521 动态规划

第11章 动态规划动态规划是制定一系列相关决策时的一种数学方法,提供系统化的方法来寻求最优解,具有一定程度上的独创性和洞察力,以识别何时、如何 通过动态规划解决问题。

2023-05-21 22:30:10 137

原创 【学习ChatGPT】2. GPT2、GPT3、InstructGPT

复习: Transformer、GPT1 https://blog.csdn.net/Citroooon/article/details/130048167?

2023-04-16 01:33:28 377

原创 【学习ChatGPT】1. 复习:Seq2Seq、Transformer、GPT

seq2seq transformer gpt bert

2023-04-09 22:27:56 3057

原创 【运筹】0402 网络优化问题

网络最优化模型实际上是线性规划的特殊类型主要有五类重要的网络问题。

2023-04-02 22:11:57 1341

原创 【运筹】0326 运输和指派问题

运输 指派

2023-03-26 22:12:56 84

原创 【运筹】0319_单纯形法&对偶理论

材料: Introduction to Operation Research 清华大学出版社。

2023-03-19 21:18:33 605

原创 【运筹】运筹优化实践

运筹优化实践

2023-03-12 22:45:19 242

原创 【论文】出餐时间预估

meituan kdd

2023-03-05 22:05:52 373

原创 【论文】A Framework for Multi-stage Bonus Allocation in meal delivery Platform

【论文】A Framework for Multi-stage Bonus Allocation in meal delivery Platform

2023-02-26 23:16:02 379

原创 【论文】Adversarial Gradient Driven Exploration for Deep Click-Through Rate Prediction

阿里妈妈 2022 kdd。

2023-02-12 21:06:17 255

原创 【论文】Conv-LSTM

conv-lstm 时序预测

2023-01-08 23:07:50 1335

原创 【基础】GCN

gcn

2022-12-25 21:36:50 128

原创 【论文】时空预测模型Spatio-Temporal Graph Convolutional Networks

stgcn

2022-12-18 21:53:25 1721

原创 【论文】When Recommender Systems Meet Fleet Management: Practical Study in Online Driver Repositioning

调度论文

2022-12-10 23:14:23 382 1

原创 kafka的auto.offset.reset

关于kafak的offsetoffset 指的是每个消费组消费的下标,每条消息对应一个下标每次消费数据如果提交offset,那么下次消费就会从提交offset + 1 开始消费。如果100条数据,我消费了50条(0~49)并提交了,那下次就从50开始消费。cosumer 的 enable.auto.commit = true 表示自动提交max.poll.records 可以设置每次拉取...

2019-08-21 17:30:36 468

原创 记 第一个Eclipse+Spring MVC+Maven+Mybatis+Mysql 项目遇到的问题及解决方案

配置文件spring-mybatis-servlet.xmlcontroller, service, dao 的扫描路径根视图,视图层配置(prefix, suffix)静态资源js, css, img 配置dataSource配置 + sqlSessionFactory + dao下面的xml文件transaction managerweb.xmlfilter & ser...

2019-08-20 09:49:01 199

原创 Python2 中文字典读写

Python2 中文字典读写Intro几个préacquis读取写入读取字典完成代码Intro在做新词提取任务时,被python2的编码恶心到了,研究了半天,整理出一下tips,希望以后不要被编码问题折磨了。!ps. 直接从notebook里复制来的,就变成了图片。完整代码在最后。几个préacquis读取写入读取字典完成代码...

2019-07-11 16:46:49 732

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除