哈喽十八子-CSDN博客

翻译【DIN论文精读】Deep Interest Network for Click-Through Rate Prediction

深度兴趣网络(DIN)

2022-09-16 09:02:19 501

翻译【ESMM论文精读】Entire Space Multi-Task Model: An Effective Approach for Estimating Post-Click Conversion

【ESSM论文精读】Entire Space Multi-Task Model: An Effective Approach for Estimating Post-Click Conversion Rate

2022-07-13 21:23:07 961

原创推荐算法之--矩阵分解(Matrix Factorization)

文章目录推荐算法之--矩阵分解(Matrix Factorization)1. 共现矩阵2. 矩阵分解3. SVD实现矩阵分解4. 梯度下降4.1 前向推理 & 符号表示4.2 损失函数4.3 梯度计算4.4 代码测试5. 梯度下降 + sigmoid：5.1 前向推理 & 符号表示5.2 损失函数5.3 梯度计算5.4 代码测试6. 梯度的几何理解6.1 误差损失函数的梯度（1）关于用户/物品矩阵（2）关于用户/物品/整体偏置6.3 正则化损失函数的梯度7. Keras实现7.1 没有

2022-03-09 23:21:28 8365 2

原创强化学习_经典论文框架

汇总文章目录汇总PaperDQN Series【2010】Double Q-learning【2013】【DQN】【2015】【Nature DQN】【2015】【Double DQN】【2016】【Dueling DQN】【2016】【Prioritized DQN】Policy Gradient【2000】【PG】【2014】【DPG】【2015】【DDPG】【2017】【PPO】Actor-Critic Series【2016】【A3C】【2018】【SAC】AlphaGo Series (wit

2022-02-08 21:29:43 1478

翻译《word2vec Parameter Learning Explained》论文笔记

word2vec Parameter Learning Explained

2022-01-11 20:58:52 2414

原创《深度学习推荐系统》学习笔记(5)——Embedding（论文）

Embedding在推荐系统中的应用文章目录Embedding在推荐系统中的应用Word2vec (2013, Google)Item2vec (2006, 微软)DeepWalk (2014)Node2vec (2016, 斯坦福大学)EGES (2018, 阿里巴巴)局部敏感哈希 (2008)其他参考文献Word2vec (2013, Google)原理：利用句子中词的相关性建模，利用单隐层神经网络获得词的Embedding 向量特点：经典 Embedding方法局限：仅能针对词序列样本

2022-01-05 21:01:22 994

原创《深度学习推荐系统》学习笔记(4)——Embedding（思维导图）

参考：《深度学习推荐系统》王喆

2022-01-05 20:46:31 812

原创《深度学习推荐系统》学习笔记(3)——深度学习推荐模型

参考：《深度学习推荐系统》王喆深度学习推荐模型文章目录深度学习推荐模型深度学习RS进展演化关系AutoRec (2015，澳大利亚国立大学)Deep Crossing (2016, Microsoft)DSSM 双塔模型 (2013, Microsoft)NeuralCF (2017，新加坡国立大学)PNN (2016，SJTU)Wide&Deep (2016, Google)Deep&Cross / DCN (2017，Stanford + Google)FNN (2016, 伦.

2021-12-29 19:27:20 1662

原创《深度学习推荐系统》学习笔记(2)——传统推荐模型

参考：《深度学习推荐系统》王喆传统推荐模型目录文章目录传统推荐模型目录传统推荐模型优势演化关系协同过滤 CF (1992)矩阵分解 Matrix Factorization (2009)逻辑回归 LRPOLY2 2010FM (Factorization Machine)(2010)FFM (Field-aware FM)(2015)GBDT+LR (2014)LS-PLM (Large Scale Piece-wise Linear Model）(2012使用，2017公开)其他参考文献传统.

2021-12-28 20:29:45 1314

原创《深度学习推荐系统》学习笔记(1)——概述（思维导图）

参考：《深度学习推荐系统》王喆

2021-12-28 20:16:02 553

原创强化学习_知识框架&笔记（Python）

《强化学习：原理与Python实现》

2021-12-28 08:58:12 562

原创强化学习_知识框架&笔记（Sutton）

《强化学习》Suttun

2021-12-28 08:56:04 466

原创图神经网络GNN_知识框架&学习笔记

参考：《深入浅出图神经网络：GNN原理解析》作者: 刘忠雨，李彦霖，周洋出版社: 机械工业出版社

2021-12-22 21:51:01 561

原创凸优化_知识框架&笔记

参考书目：《凸优化》Boyed

2021-12-22 21:46:16 619

翻译【IJCAI2021】《Graph Learning based Recommender Systems:A Review》论文笔记

《Graph Learning based Recommender Systems:A Review》《图学习推荐系统：回顾/综述》

2021-12-11 13:36:02 2459

原创 2021总结&2022规划

文章目录2021总结项目读书-技术类读书-非技术类产出两个小团体半马一点思考1. 技术上的相通性2. 机器学习发展趋势3. 团队建设和技术储备2022规划学习工作其他转眼又快年末，正好工作上在搞总结和规划，干脆也趁着思路热乎，提前着手写写今年的个人回顾，虽然准确算还有一个来月。依然按去年的思路(2020总结 & 2021规划)。2021总结开宗明义：做了几个项目，读了一些书，产出了几篇专利/文章(非paper)，攒(cuán)了两个小团体，发起了一个读书会，参加了一个科技创新公益比赛，跑了一次

2021-11-19 19:28:56 1090

原创小扰动线性化思想在机器学习中的跨界应用

文章目录一个具体的应用过程小扰动思想和算法的联系一个具体的应用过程在之前提到的一个项目里，有一个重要的细节被一带而过了。原文链接：凸约束机器学习模型的探索及其可解释性思考 https://blog.csdn.net/qq_36870202/article/details/116889535我们搭建一个凸(拟凸)的机器学习模型，主要有三点考虑：让输入-输出的变化关系更合理，进而保证模型可解释；训练模型参数(或优化求解)过程中，尽量稳定和鲁棒，即容易收敛到全局最优解；问题可以这样简化：输入小幅度

2021-06-01 21:17:15 1707

原创凸约束机器学习模型的探索及其可解释性思考

0. 目录文章目录0. 目录1. 前言2. 问题背景3. 前期方案及存在的问题3.1 统一的神经网络模型3.2 存在的问题4. 凸模型的设计和训练4.1 比例线性模型4.2 正项式模型4.3 凸神经网络模型4.3.1 模型结构(正向传播)4.3.2 损失函数(1) 误差损失(2) 单调性损失4.3.3 模型训练(反向传播)(1) 对损失LeL_eLe求偏导(2) 对损失LqL_qLq求偏导(3) 对损失LnL_nLn求偏导(4) 梯度下降5. 总结5.1 效果概况5.2 AI算法的可解释性思考1.

2021-05-16 14:09:44 914

原创集成学习&强化学习及其在群体学习&群体决策中的借鉴意义

文章目录1. 集成学习BaggingBoosting“好而不同”的原则“不同”的需求“好”的度量2. 强化学习简介实践过程中的一系列问题3. 集成学习&强化学习的结合强化学习问题的解决模型的弱化和协同训练试错空间的并行搜索交互的并行和经历库的共享优势汇总4. 借鉴意义群体决策中的“好而不同”原则群体学习中的两次共享原始经历的共享隐式经验的共享5. 附在最近的一个项目里强化学习：项目经验汇总，结合集成学习 + 强化学习，实现了图数据中的一个搜索任务。总结下来，感受到集成学习和强化学习结合在一起，在

2021-04-03 17:41:21 3765 1

原创关于时间管理和作息

关于时间管理和作息突然的心血来潮，想把自己关于时间管理的一点想法梳理和总结一下，也算是为未来的每一天做一些更细致的规划.希望未来的每一天都能够充实而又快乐，客观向上，充满希望。清晨的美好完美的一天，始于完美的起床；早起要养成早睡早起的好习惯，尽量早一点起床；起床不要拖拖拉拉，避免“再睡五分钟”。但也不要猛地坐起来，做几次深呼吸，活动活动四肢，让起床有个短暂的过程。起床后，马上做一件让自己清醒的事情，比方说马上洗个脸，也有人习惯晒晒太阳。早饭早上要吃饱；我的习惯是，一定要吃早饭；

2021-03-09 22:02:35 290 4

原创凸优化2：凸集

文章目录什么是凸集直线和线段直线线段仿射集仿射组合子空间仿射包仿射维度凸集凸组合凸包凸锥锥组合锥包凸集的一些例子超平面半空间Euclid球椭球范数球范数锥什么是凸集直线和线段直线RnR^nRn空间两个点x1≠x2x_1\neq x_2x1=x2,穿越两点的直线：y=θx1+(1−θ)x2y=\theta x_1 + (1-\theta) x_2y=θx1+(1−θ)x2另一种形式：y=x2+θ(x1−x2)y= x_2 + \theta (x_1 - x_2)y=x2+θ

2021-03-03 23:16:09 596 1

原创凸优化1：什么是凸优化问题

一些闲话去年就想看一下优化和泛函变分相关的内容，但没有空余的排期，大部分学习时间花在了强化学习方面。今年，正好近期项目也有需要，凸优化提上了自学日程。参考书目：《凸优化》清华大学出版社，Stephen Boyd, Lieven Vandenberghe著，王书宁，许鋆，黄晓霖译全书700页，计划用半年的时间完成一刷。凸优化问题数学优化：数学模型mininize f0(x)subject to fi(x)≤bi, i=1,2,⋯ ,m\begin{a

2021-02-25 22:47:54 2333

原创强化学习：训练过程感知与理解

训练过程是怎样进行的粗略的更新方程q(s,a)=q(s,a)+ϵ(U−q(s,a))q(s,a)=q(s,a)+\epsilon(U-q(s,a))q(s,a)=q(s,a)+ϵ(U−q(s,a))SARSA :U=r+γ⋅q(s′,a′)U=r+\gamma·q(s',a')U=r+γ⋅q(s′,a′)Q-LearningU=r+γ⋅max⁡q(s′,a′)U=r+\gamma·\max q(s',a')U=r+γ⋅maxq(s′,a′)Double Q-LearningU=r+γ⋅q(s

2021-02-03 23:25:44 1632

原创强化学习：训练加速技巧

文章目录什么会导致训练慢庞大的探索空间模型的训练经验的积累智能体-环境交互相应的加速对策加速搜索利用状态空间的对称性规则启发广义策略迭代ϵ\epsilonϵ-贪婪策略规则引导和启发加速模型训练加速经验积累加速交互相比于监督学习和非监督学习，（深度）强化学习模型的训练过程显得更加的缓慢。因此，可能训练过程中需要一些技巧，希望可以提高的训练效率。根据以往模型训练和近期项目中的一些经验，汇总出一些有助于训练加速和模型收敛的策略或技巧，以供参考。什么会导致训练慢大概有一下几方面。庞大的探索空间一般来说

2021-02-03 23:24:05 5785

原创 2020总结 & 2021规划

文章目录2020总结关于学习关于工作关于运动2021规划关于学习关于工作关于运动2020总结开宗明义：看了一些书，做了一些项目，减了一些肥；关于学习看了一些技术类的书，提高工作效率，增加技术储备。一点感触，大部头、公式多、逻辑强，这种类型的书不太适合零散时间来看，例如下班之后。即便天暖的时候，精力很旺盛，思路很活跃，能迅速接上之前的逻辑，进入状态，但总体而言，还是效率不高。不如专门抽出一个相对长一点的时间段。名字作者进度《机器学习》（西瓜书）周志华一刷《统计学习方

2021-01-31 15:02:02 527

原创记一次基于强化学习的有向图搜索

文章目录一些闲话关于项目要解决的问题环境建模状态动作状态转移奖励设置不同版本的游戏规则一些技巧和经验动作选择学习率模型主体经验回放考虑结合集成学习其他一些闲话距离上一次更新已经过去三个月了。记得大学养生通识课上说，春发，夏长，秋收，冬藏。果然，天一冷，精力没有春夏秋那么旺盛了，天一晚脑子就木，步也不怎么跑了，博客也不怎么更了，看书效率也低了。好在前面几个季度，减肥效果还是比较有成效的，冬天空气也不太好，暂且修养一段时间，等天暖和之后继续跑步和更新博客。近期，某个项目用到了强化学习的思路，趁热打铁，把

2021-01-31 01:07:24 1299

原创强化学习：多臂赌博机--磨刀不误砍柴工

文章目录强化学习：多臂赌博机--磨刀不误砍柴工多臂赌博机の游戏规则强化学习：多臂赌博机–磨刀不误砍柴工平时我们说，“磨刀不误砍柴工”，通常说的是做事之前精心准备，虽然耗费了一定的时间，但由于提高了后面做事情的效率，相比于直接低效率做事情，还是会有更多的收益。强化学习中也有一个类似的问题，即探索和开发之间的平衡问题(Explore-Exploit)。探索即试错的过程，就像磨刀一样，会浪费一些机会、时间或者精力，导致一定时间内的收益会很少或者没有，但为了后面的开发打下了很好的基础；开发即收获的

2020-11-17 20:58:00 427

原创强化学习：章节汇总

强化学习-章节汇总强化学习0：章节汇总强化学习1：什么是强化学习强化学习2：马尔科夫决策过程强化学习3：Bellman方程迭代求解强化学习4：回合更新价值迭代强化学习5：时序差分价值迭代...

2020-11-14 23:35:42 169

原创强化学习5：时序差分价值迭代

文章目录时序差分价值迭代 TD(nstep)TD(n_{step})TD(nstep)同策时序差分策略评估SARSA / SARSA(n)异策时序差分重要性采样Q学习（Q-Learning）双重Q学习（Double Q-Learning）资格迹算法 TD(λ)TD(\lambda)TD(λ)时序差分目标Ut:t+iU_{t:t+i}Ut:t+i和λ\lambdaλ回报资格迹函数e(s,a)e(s, a)e(s,a)TD(λ)TD(\lambda)TD(λ)和SARSASARSASARSA的比较时序差

2020-11-14 23:29:58 493

十八子的博客

原创 2022回顾&2023规划