Citroooon-CSDN博客

原创 [论文] pcgrad

定义1：夹角cos<0即为冲突定义2：如果梯度值的相似度高，则值为1，否则趋近于0定义3：多任务梯度∇Lθ∇Lθ的方向上，LL在θ\thetaθ和θ′θ′之间的平均曲率。

2023-12-03 21:56:48 353

原创 [论文综述] 社区发现_1

社区发现是复杂网络问题的一个重要研究领域；

2023-11-19 21:34:48 306

原创 [论文] Exploring the Spatiotemporal Features of Online Food Recommendation Service

应用背景：online food recommendation service (OFRS)· 时空特征不是越多越好，精细化筛选可以提升模型效果；· 提出Dynamic Context Adaptation Model。

2023-10-29 22:04:54 164

原创社区发现算法 louvain

由node和egde形成的网络图中，关系紧密的可以形成一个社区，其内部紧密，与外部连接稀疏。社区发现算法就是要检测网络结构中紧密的社区团。· 用什么可以描述社团的紧密程度：模块度（modularity)， louvain算法的核心思想就是最大化模块度。

2023-10-15 22:29:55 637

背后的含义是： Loss 大的任务，包含的uncertainty也应该多，而它的权重就应该小一点。典型的例子是二分类任务 + 回归任务的多目标优化，L2 Loss 和交叉熵损失的 Loss 大小与梯度大小的量级和幅度可能差异很大，如果不处理会对优化造成很大干扰。为直接建模的uncertainty，是一个可学习的参数。总 Loss 设计成这样的形式，模型优化过程中会倾向于惩罚高 Loss 而低公式的情况（如果一个任务的 Loss 高，同时公式又小的话，这一项就会很大，优化算法就会倾向于优化它）。

2023-09-10 22:38:02 2316

原创【论文】 modeling dual period-varing preferences

user- aware gate: 用户的个人偏好（同一个store, 有的用户偏向包子，有的偏向面条）把full interaction graph 拆成 food-level和 store-level。time-aware gate: 不同时间段的偏好。· 不同时间段的embedding是共享的。edge：US、UO、OS的两两交互。· 构建三元交互数据的图网络 G。再分别拆成四个时间段。

2023-08-27 20:56:48 145

原创【论文】意图分析 NEON: Living Needs Prediction System in Meituan

我们把10个需求分为到店和到家两类，同时预测需求方式（Way）和具体的需求(Need);feature merging network: 把embedding后的用户特征、时空特征、group特征concat在一起。为了表征不收时空影响的用户偏好特征，直接将embedding前的用户特征放入user preference network。用户的意图识别包括在美团APP上吃、住、娱乐等需求的识别，对下游的个性化推荐有着关键的作用。用户的需求和他在平台上历史的需求之间有差别。需求天然受到时空的影响。

2023-08-20 21:23:51 524

原创【强化】imitation learning

【强化】imitation learning

2023-08-06 20:13:06 90

原创【强化】sparse reward

在很多情景下，做很多action可能都不会得到任何reward，只有在终态才会得到reward，这样对agent的学习是非常不利的，下面提出几种方法解决这种sparse reward的问题。

2023-07-30 21:44:27 82

原创【强化】Q-learning + AC

aargmaxaQsaQ-learning 在处理连续值的时候会比较不方便，传统的做法：· sample一些离散的action: 无法取到最优· 用梯度上升法逐次求解：计算量大都有一些缺点。μ像高斯分布的均值，Σ像高斯分布的方差。为了最大化Q，应该让aμs但是用Qlearning处理连续的action仍然不是最好的方法。

2023-07-23 22:07:23 120

原创【强化】Q-learning advanced tips

tips of q-learning

2023-07-09 22:30:14 89

原创【强化】Q-learning（basic idea)

在使用TD的方法训练Q的时候，由于有两套参数需要update, 会导致训练不稳定，所以一般采取先freeze t+1部分的网络，只训练t部分的，参数更新多次之后再去update另一边。, 在state s强制使用action a（后续的action是不强制的）, 得到的cumulated reward;所以，critic不止可以用来评估policy的好坏，还可以用来决策使用哪个action、找到更好的policy。· 下面这个例子用mc和td的方法计算出来的结果是不一样的。找到Q最大的action，

2023-07-02 19:30:33 127

原创【论文】STHAN

交通流量预测

2023-06-18 22:29:02 108

原创【论文】多场景多任务推荐

ICDE 2023 | 多场景多任务学习在美团到店餐饮推荐的实践。

2023-06-11 21:48:51 363

原创【学习ChatGPT】4. 阅读transformer代码

transformer代码

2023-06-04 19:28:01 100

原创【学习ChatGPT】 3. PPO

expected reward: 穷举所有trajectory，算出total reward的均值。off-policy: 学习的agent和与环境交互的agent不是同一个。on-policy: 学习的agent和与环境交互的agent是同一个。一个整体reward是正的，但不代表其中每一步都是好的，所以加入credit。与mll的区别就是要乘上一个weight，也就是total reward。导致整个trajectory的reward是正的，那么就要增加在。的reward就是reward的期望值。

2023-05-28 22:50:06 209 1

原创【运筹】0521 动态规划

第11章动态规划动态规划是制定一系列相关决策时的一种数学方法，提供系统化的方法来寻求最优解，具有一定程度上的独创性和洞察力，以识别何时、如何通过动态规划解决问题。

2023-05-21 22:30:10 187

原创【学习ChatGPT】2. GPT2、GPT3、InstructGPT

复习: Transformer、GPT1 https://blog.csdn.net/Citroooon/article/details/130048167?

2023-04-16 01:33:28 462

原创【学习ChatGPT】1. 复习：Seq2Seq、Transformer、GPT

seq2seq transformer gpt bert

2023-04-09 22:27:56 3252

原创【运筹】0402 网络优化问题

网络最优化模型实际上是线性规划的特殊类型主要有五类重要的网络问题。

2023-04-02 22:11:57 1649

原创【运筹】0326 运输和指派问题

运输指派

2023-03-26 22:12:56 163

原创【运筹】0319_单纯形法&对偶理论

材料： Introduction to Operation Research 清华大学出版社。

2023-03-19 21:18:33 781

原创【运筹】运筹优化实践

运筹优化实践

2023-03-12 22:45:19 354

原创【论文】出餐时间预估

meituan kdd

2023-03-05 22:05:52 522

原创【论文】A Framework for Multi-stage Bonus Allocation in meal delivery Platform

【论文】A Framework for Multi-stage Bonus Allocation in meal delivery Platform

2023-02-26 23:16:02 536

原创【论文】Adversarial Gradient Driven Exploration for Deep Click-Through Rate Prediction

阿里妈妈 2022 kdd。

2023-02-12 21:06:17 344

原创【论文】Conv-LSTM

conv-lstm 时序预测

2023-01-08 23:07:50 1527 1

原创【基础】GCN

gcn

2022-12-25 21:36:50 188

原创【论文】时空预测模型Spatio-Temporal Graph Convolutional Networks

stgcn

2022-12-18 21:53:25 2054

原创【论文】When Recommender Systems Meet Fleet Management: Practical Study in Online Driver Repositioning

调度论文

2022-12-10 23:14:23 500 1

原创 kafka的auto.offset.reset

关于kafak的offsetoffset 指的是每个消费组消费的下标，每条消息对应一个下标每次消费数据如果提交offset，那么下次消费就会从提交offset + 1 开始消费。如果100条数据，我消费了50条（0~49）并提交了，那下次就从50开始消费。cosumer 的 enable.auto.commit = true 表示自动提交max.poll.records 可以设置每次拉取...

2019-08-21 17:30:36 514

原创记第一个Eclipse+Spring MVC+Maven+Mybatis+Mysql 项目遇到的问题及解决方案

配置文件spring-mybatis-servlet.xmlcontroller, service, dao 的扫描路径根视图，视图层配置（prefix, suffix）静态资源js, css, img 配置dataSource配置 + sqlSessionFactory + dao下面的xml文件transaction managerweb.xmlfilter & ser...

2019-08-20 09:49:01 228

原创 Python2 中文字典读写

Python2 中文字典读写Intro几个préacquis读取写入读取字典完成代码Intro在做新词提取任务时，被python2的编码恶心到了，研究了半天，整理出一下tips，希望以后不要被编码问题折磨了。！ps. 直接从notebook里复制来的，就变成了图片。完整代码在最后。几个préacquis读取写入读取字典完成代码...

2019-07-11 16:46:49 776

Citroooon的博客