自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(36)
  • 收藏
  • 关注

原创 2022回顾&2023规划

2022回顾&2023规划

2023-01-07 18:04:43 506 1

翻译 【DIN论文精读】Deep Interest Network for Click-Through Rate Prediction

深度兴趣网络(DIN)

2022-09-16 09:02:19 293

原创 视频《白话机器学习》

【白话机器学习】

2022-07-18 18:47:39 384

翻译 【ESMM论文精读】Entire Space Multi-Task Model: An Effective Approach for Estimating Post-Click Conversion

【ESSM论文精读】Entire Space Multi-Task Model: An Effective Approach for Estimating Post-Click Conversion Rate

2022-07-13 21:23:07 414

原创 推荐算法之--矩阵分解(Matrix Factorization)

文章目录推荐算法之--矩阵分解(Matrix Factorization)1. 共现矩阵2. 矩阵分解3. SVD实现矩阵分解4. 梯度下降4.1 前向推理 & 符号表示4.2 损失函数4.3 梯度计算4.4 代码测试5. 梯度下降 + sigmoid:5.1 前向推理 & 符号表示5.2 损失函数5.3 梯度计算5.4 代码测试6. 梯度的几何理解6.1 误差损失函数的梯度(1)关于 用户/物品矩阵(2)关于 用户/物品/整体偏置6.3 正则化损失函数的梯度7. Keras实现7.1 没有

2022-03-09 23:21:28 7058 2

原创 强化学习_经典论文框架

汇总文章目录汇总PaperDQN Series【2010】Double Q-learning【2013】【DQN】【2015】【Nature DQN】【2015】【Double DQN】【2016】【Dueling DQN】【2016】【Prioritized DQN】Policy Gradient【2000】【PG】【2014】【DPG】【2015】【DDPG】【2017】【PPO】Actor-Critic Series【2016】【A3C】【2018】【SAC】AlphaGo Series (wit

2022-02-08 21:29:43 944

翻译 《word2vec Parameter Learning Explained》论文笔记

word2vec Parameter Learning Explained

2022-01-11 20:58:52 1965

原创 《深度学习推荐系统》学习笔记(5)——Embedding(论文)

Embedding在推荐系统中的应用文章目录Embedding在推荐系统中的应用Word2vec (2013, Google)Item2vec (2006, 微软)DeepWalk (2014)Node2vec (2016, 斯坦福大学)EGES (2018, 阿里巴巴)局部敏感哈希 (2008)其他参考文献Word2vec (2013, Google)原理:利用句子中词的相关性建模,利用单隐层神经网络获得词的Embedding 向量特点:经典 Embedding方法局限:仅能针对 词序列 样本

2022-01-05 21:01:22 835

原创 《深度学习推荐系统》学习笔记(4)——Embedding(思维导图)

参考:《深度学习推荐系统》王喆

2022-01-05 20:46:31 681

原创 《深度学习推荐系统》学习笔记(3)——深度学习推荐模型

参考:《深度学习推荐系统》王喆深度学习推荐模型文章目录深度学习推荐模型深度学习RS进展演化关系AutoRec (2015,澳大利亚国立大学)Deep Crossing (2016, Microsoft)DSSM 双塔模型 (2013, Microsoft)NeuralCF (2017,新加坡国立大学)PNN (2016,SJTU)Wide&Deep (2016, Google)Deep&Cross / DCN (2017,Stanford + Google)FNN (2016, 伦.

2021-12-29 19:27:20 1216

原创 《深度学习推荐系统》学习笔记(2)——传统推荐模型

参考:《深度学习推荐系统》王喆传统推荐模型目录文章目录传统推荐模型目录传统推荐模型优势演化关系协同过滤 CF (1992)矩阵分解 Matrix Factorization (2009)逻辑回归 LRPOLY2 2010FM (Factorization Machine)(2010)FFM (Field-aware FM)(2015)GBDT+LR (2014)LS-PLM (Large Scale Piece-wise Linear Model)(2012使用,2017公开)其他参考文献传统.

2021-12-28 20:29:45 1090

原创 《深度学习推荐系统》学习笔记(1)——概述(思维导图)

参考:《深度学习推荐系统》王喆

2021-12-28 20:16:02 462

原创 强化学习_知识框架&笔记(Python)

《强化学习:原理与Python实现》

2021-12-28 08:58:12 503

原创 强化学习_知识框架&笔记(Sutton)

《强化学习》Suttun

2021-12-28 08:56:04 368

原创 图神经网络GNN_知识框架&学习笔记

参考:《深入浅出图神经网络:GNN原理解析》作者: 刘忠雨,李彦霖,周洋出版社: 机械工业出版社

2021-12-22 21:51:01 503

原创 凸优化_知识框架&笔记

参考书目:《凸优化》Boyed

2021-12-22 21:46:16 570

翻译 【IJCAI2021】《Graph Learning based Recommender Systems:A Review》论文笔记

《Graph Learning based Recommender Systems:A Review》《图学习推荐系统:回顾/综述》

2021-12-11 13:36:02 1713

原创 2021总结&2022规划

文章目录2021总结项目读书-技术类读书-非技术类产出两个小团体半马一点思考1. 技术上的相通性2. 机器学习发展趋势3. 团队建设和技术储备2022规划学习工作其他转眼又快年末,正好工作上在搞总结和规划,干脆也趁着思路热乎,提前着手写写今年的个人回顾,虽然准确算还有一个来月。依然按去年的思路(2020总结 & 2021规划)。2021总结开宗明义:做了几个项目,读了一些书,产出了几篇专利/文章(非paper),攒(cuán)了两个小团体,发起了一个读书会,参加了一个科技创新公益比赛,跑了一次

2021-11-19 19:28:56 1010

原创 小扰动线性化思想在机器学习中的跨界应用

文章目录一个具体的应用过程小扰动思想和算法的联系一个具体的应用过程在之前提到的一个项目里,有一个重要的细节被一带而过了。原文链接:凸约束机器学习模型的探索及其可解释性思考 https://blog.csdn.net/qq_36870202/article/details/116889535我们搭建一个凸(拟凸)的机器学习模型,主要有三点考虑:让输入-输出的变化关系更合理,进而保证模型可解释;训练模型参数(或优化求解)过程中,尽量稳定和鲁棒,即容易收敛到全局最优解;问题可以这样简化:输入小幅度

2021-06-01 21:17:15 1293

原创 凸约束机器学习模型的探索及其可解释性思考

0. 目录文章目录0. 目录1. 前言2. 问题背景3. 前期方案及存在的问题3.1 统一的神经网络模型3.2 存在的问题4. 凸模型的设计和训练4.1 比例线性模型4.2 正项式模型4.3 凸神经网络模型4.3.1 模型结构(正向传播)4.3.2 损失函数(1) 误差损失(2) 单调性损失4.3.3 模型训练(反向传播)(1) 对损失LeL_eLe​求偏导(2) 对损失LqL_qLq​求偏导(3) 对损失LnL_nLn​求偏导(4) 梯度下降5. 总结5.1 效果概况5.2 AI算法的可解释性思考1.

2021-05-16 14:09:44 787

原创 集成学习&强化学习及其在群体学习&群体决策中的借鉴意义

文章目录1. 集成学习BaggingBoosting“好而不同”的原则“不同”的需求“好”的度量2. 强化学习简介实践过程中的一系列问题3. 集成学习&强化学习的结合强化学习问题的解决模型的弱化和协同训练试错空间的并行搜索交互的并行和经历库的共享优势汇总4. 借鉴意义群体决策中的“好而不同”原则群体学习中的两次共享原始经历的共享隐式经验的共享5. 附在最近的一个项目里强化学习:项目经验汇总,结合集成学习 + 强化学习,实现了图数据中的一个搜索任务。总结下来,感受到集成学习和强化学习结合在一起,在

2021-04-03 17:41:21 2808 1

原创 关于时间管理和作息

关于时间管理和作息突然的心血来潮,想把自己关于时间管理的一点想法梳理和总结一下,也算是为未来的每一天做一些更细致的规划.希望未来的每一天都能够充实而又快乐,客观向上,充满希望。清晨的美好完美的一天,始于完美的起床;早起要养成早睡早起的好习惯,尽量早一点起床;起床不要拖拖拉拉,避免“再睡五分钟”。但也不要猛地坐起来,做几次深呼吸,活动活动四肢,让起床有个短暂的过程。起床后,马上做一件让自己清醒的事情,比方说马上洗个脸,也有人习惯晒晒太阳。早饭早上要吃饱;我的习惯是,一定要吃早饭;

2021-03-09 22:02:35 228 4

原创 凸优化2:凸集

文章目录什么是凸集直线和线段直线线段仿射集仿射组合子空间仿射包仿射维度凸集凸组合凸包凸锥锥组合锥包凸集的一些例子超平面半空间Euclid球椭球范数球范数锥什么是凸集直线和线段直线RnR^nRn空间两个点x1≠x2x_1\neq x_2x1​​=x2​,穿越两点的直线:y=θx1+(1−θ)x2y=\theta x_1 + (1-\theta) x_2y=θx1​+(1−θ)x2​另一种形式:y=x2+θ(x1−x2)y= x_2 + \theta (x_1 - x_2)y=x2​+θ

2021-03-03 23:16:09 486 1

原创 凸优化1:什么是凸优化问题

一些闲话去年就想看一下优化和泛函变分相关的内容,但没有空余的排期,大部分学习时间花在了强化学习方面。今年,正好近期项目也有需要,凸优化提上了自学日程。参考书目:《凸优化》清华大学出版社,Stephen Boyd, Lieven Vandenberghe著,王书宁,许鋆,黄晓霖 译全书700页,计划用半年的时间完成一刷。凸优化问题数学优化:数学模型mininize f0(x)subject to fi(x)≤bi, i=1,2,⋯ ,m\begin{a

2021-02-25 22:47:54 1940

原创 强化学习:训练过程感知与理解

训练过程是怎样进行的粗略的更新方程q(s,a)=q(s,a)+ϵ(U−q(s,a))q(s,a)=q(s,a)+\epsilon(U-q(s,a))q(s,a)=q(s,a)+ϵ(U−q(s,a))SARSA :U=r+γ⋅q(s′,a′)U=r+\gamma·q(s',a')U=r+γ⋅q(s′,a′)Q-LearningU=r+γ⋅max⁡q(s′,a′)U=r+\gamma·\max q(s',a')U=r+γ⋅maxq(s′,a′)Double Q-LearningU=r+γ⋅q(s

2021-02-03 23:25:44 1287

原创 强化学习:训练加速技巧

文章目录什么会导致训练慢庞大的探索空间模型的训练经验的积累智能体-环境交互相应的加速对策加速搜索利用状态空间的对称性规则启发广义策略迭代ϵ\epsilonϵ-贪婪策略规则引导和启发加速模型训练加速经验积累加速交互相比于监督学习和非监督学习,(深度)强化学习模型的训练过程显得更加的缓慢。因此,可能训练过程中需要一些技巧,希望可以提高的训练效率。根据以往模型训练和近期项目中的一些经验,汇总出一些有助于训练加速和模型收敛的策略或技巧,以供参考。什么会导致训练慢大概有一下几方面。庞大的探索空间一般来说

2021-02-03 23:24:05 4878

原创 2020总结 & 2021规划

文章目录2020总结关于学习关于工作关于运动2021规划关于学习关于工作关于运动2020总结开宗明义:看了一些书,做了一些项目,减了一些肥;关于学习看了一些技术类的书,提高工作效率,增加技术储备。一点感触,大部头、公式多、逻辑强,这种类型的书不太适合零散时间来看,例如下班之后。即便天暖的时候,精力很旺盛,思路很活跃,能迅速接上之前的逻辑,进入状态,但总体而言,还是效率不高。不如专门抽出一个相对长一点的时间段。名字作者进度《机器学习》(西瓜书)周志华一刷《统计学习方

2021-01-31 15:02:02 352

原创 记一次基于强化学习的有向图搜索

文章目录一些闲话关于项目要解决的问题环境建模状态动作状态转移奖励设置不同版本的游戏规则一些技巧和经验动作选择学习率模型主体经验回放考虑结合集成学习其他一些闲话距离上一次更新已经过去三个月了。记得大学养生通识课上说,春发,夏长,秋收,冬藏。果然,天一冷,精力没有春夏秋那么旺盛了,天一晚脑子就木,步也不怎么跑了,博客也不怎么更了,看书效率也低了。好在前面几个季度,减肥效果还是比较有成效的,冬天空气也不太好,暂且修养一段时间,等天暖和之后继续跑步和更新博客。近期,某个项目用到了强化学习的思路,趁热打铁,把

2021-01-31 01:07:24 820

原创 强化学习:多臂赌博机--磨刀不误砍柴工

文章目录强化学习:多臂赌博机--磨刀不误砍柴工多臂赌博机の游戏规则强化学习:多臂赌博机–磨刀不误砍柴工平时我们说,“磨刀不误砍柴工”,通常说的是做事之前精心准备,虽然耗费了一定的时间,但由于提高了后面做事情的效率,相比于直接低效率做事情,还是会有更多的收益。强化学习中也有一个类似的问题,即 探索 和 开发 之间的平衡问题(Explore-Exploit)。探索即试错的过程,就像磨刀一样,会浪费一些机会、时间或者精力,导致一定时间内的收益会很少或者没有,但为了后面的开发打下了很好的基础;开发即收获的

2020-11-17 20:58:00 349

原创 强化学习:章节汇总

强化学习-章节汇总强化学习0:章节汇总强化学习1:什么是强化学习强化学习2:马尔科夫决策过程强化学习3:Bellman方程迭代求解强化学习4:回合更新价值迭代强化学习5:时序差分价值迭代...

2020-11-14 23:35:42 104

原创 强化学习5:时序差分价值迭代

文章目录时序差分价值迭代 TD(nstep)TD(n_{step})TD(nstep​)同策时序差分策略评估SARSA / SARSA(n)异策时序差分重要性采样Q学习(Q-Learning)双重Q学习(Double Q-Learning)资格迹算法 TD(λ)TD(\lambda)TD(λ)时序差分目标Ut:t+iU_{t:t+i}Ut:t+i​和λ\lambdaλ回报资格迹函数e(s,a)e(s, a)e(s,a)TD(λ)TD(\lambda)TD(λ)和SARSASARSASARSA的比较时序差

2020-11-14 23:29:58 271

原创 强化学习4:回合更新价值迭代

文章目录回合更新价值迭代同策策略评估回合更新起始探索柔性策略(ϵ−soft)(\epsilon-soft)(ϵ−soft)异策重要性采样策略评估回合更新求解最优策略回合更新价值迭代有模型动力函数 p(s’,r∣s,a)p(s’,r | s, a)p(s’,r∣s,a)方案:解Bellman期望方程/最优方程,方程求解 / 线性规划 / 动态规划算法:因为有模型(动力函数),可以策略迭代(Bellman期望方程),也可以价值迭代(Bellman最优方程)无模型幕序列 (S0,A0,

2020-11-14 23:29:14 675

原创 强化学习3:Bellman方程迭代求解

文章目录Bellman方程迭代求解 -> 最优策略数学基础有模型策略迭代有模型价值迭代动态规划思想Bellman方程迭代求解 -> 最优策略数学基础度量空间压缩映射Bellman算子Banach不动点理论有模型策略迭代广义策略迭代策略评估策略改进策略迭代节约空间版本(原地迭代)有模型价值迭代迭代求解最优价值函数动态规划思想...

2020-11-14 23:28:25 683 4

原创 强化学习2:马尔科夫决策过程

文章目录马尔科夫决策过程基本概念环境vs智能体环境的描述——动力函数智能体的描述——策略两者的联系——bellman期望方程基本元素价值函数转移方程和备份图最优策略bellman最优秀方程bellman 方程解析解 -> 最优策略马尔科夫决策过程基本概念马尔可夫性马尔可夫过程环境vs智能体环境的描述——动力函数动力函数 p(s’,r∣s,a)p(s’,r|s, a)p(s’,r∣s,a)智能体的描述——策略策略函数 π(a∣s)\pi(a|s)π(a∣s)两者的联系——bell

2020-11-14 23:27:43 173

原创 强化学习1:什么是强化学习

文章目录什么是强化学习?强化学习的来源强化学习能做什么?强化学习关键词强化学习分类什么是强化学习?强化学习的来源强化学习(Reinforcement Learning, RL),一般也称作增强学习,和心理学、动物行为的研究等领域很有渊源。心理学中,“强化” 指生物受到外界环境中的某些刺激后,自觉或者不自觉调整应对策略,达到趋利避害。举个例子。马戏团训练动物时(比方说猴子),训导员首先会发出某种指令(比方说抬一下手,表示希望猴子跳一下),动物接收到这个指令后,如果做出了正确的动作,会得到一定的奖

2020-11-14 23:22:40 1390

原创 第一篇博客

文章目录第一篇博客为什么开始写博客?都准备写些什么最后第一篇博客为什么开始写博客?这算是第一篇公开的博客,也算是一个FLAG。笔者是一个工科男,2019年硕士毕业,学校里和工作期间做的是机器学习相关的东西,前期主要是 计算机视觉 ,最近由于工作需要,也是兴趣使然,开始接触强化学习。Sutton的书啃的差不多了,现在一边梳理消化,一边写一些代码加深理解。回想起从大学细分专业开始,陆陆续续读了不少专业书,看了不少别人写的技术类博客,也因为兴趣、实验室项目或者工作项目需要、买了一些专业书给自己充电。总

2020-11-14 23:07:51 143

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除