2021总结&2022规划_有向图强化学习-CSDN博客

本文链接：https://blog.csdn.net/qq_36870202/article/details/121428971

文章目录

2021总结
2022规划

转眼又快年末，正好工作上在搞总结和规划，干脆也趁着思路热乎，提前着手写写今年的个人回顾，虽然准确算还有一个来月。依然按去年的思路( 2020总结 & 2021规划)。

2021总结

开宗明义：做了几个项目，读了一些书，产出了几篇专利/文章(非paper)，攒(cuán)了两个小团体，发起了一个读书会，参加了一个科技创新公益比赛，跑了一次半马。

项目

隐去详细信息

项目1：基于强化学习的有向图搜索
《记一次基于强化学习的有向图搜索》的后续优化；
项目2：凸性约束的资源调度决策模型
《凸约束机器学习模型的探索及其可解释性思考》
项目3：基于最小熵编码的信息压缩(预研)
（后续专利公开后再作总结，有点像Huffman编码，一些工程上的奇技淫巧还是挺有意思）

读书-技术类

《深度学习》Goodfellow
第一次完整细致得刷一遍，以前都是当工具书翻。感觉有一个完整细致的Deep Learning技术框架还是挺有帮助的。
《凸优化》Boyed
一刷，弥补了学校期间没有正经学过优化理论的遗憾。
《深度学习推荐系统》王喆
一刷。非常推荐ML领域的同学看一看，即便不是推荐算法方向，也值得翻一翻。值得琢磨的东西挺多：业务思维，产品思维，工程思维，技术路线演进历史的梳理，特征交叉思想的进化，模型在线更新的工程化方法，严密的思维细节和叙事逻辑等等。看下来，感觉作者是个精细又务实的人。
《实变函数论和泛函分析》(上下册)夏道行
对于变分法和泛函分析，好奇了很久，一直想看看。最早是硕士时候，用到VAE做可逆降维和数据生成，变分部分的公式，就似懂非懂；后来，强化学习里面Bellman方程收敛性证明，涉及压缩映射和Banach不动点理论，又是似懂非懂。
今年有点时间，准备了教材，排入学习列表。起初直接去看下册《泛函分析》，看不懂，又回到上册《实变函数论》补一些基础，这才有感觉。然而，后来发现太耗时间，重要不紧急，就暂时往后排。
《tensorflow 2.0文档》
看了看新特性，然后继续拥抱keras→_→
不过TF2.0的有些新特性的确友好又舒适，tensor输出变量直接print就可，再也不用疯狂写sess.run()；还有GradientTape()，把自己从手动求梯度的工作中解放了出来，再也不必手撸链式法则，美滋滋。
PS：手动求梯度血泪史：《凸约束机器学习模型的探索及其可解释性思考》 #4.3.3

读书-非技术类

《乌合之众》
褒贬不一，但值得辩证批判地看
《遍地风流》
阿城是个有趣的人
《三体》
微信读书，太长，断断续续，刚50%
温铁军系列之 《去依附》，《告别百年激进》，《八次危机》
没事翻翻，也是断断续续，没有想象的通俗易懂，但挺有内容

产出

技术专利 x 6
准确信息略，大概内容：
[1] 基于强化学习的有向图搜索和节点推荐
[2] 基于凸优化的资源转化率估计模型
[3] 基于GNN和VAE的图数据仿真和生成
[4] 基于GNN和强化学习和集群控制方法
[5] 基于最小熵编码的信息压缩方法
[6] 基于NLP的用户画像和好友推荐（赶鸭队yyds）
技术文章 x 7
[1] 强化学习：训练加速技巧
[2] 强化学习：训练过程感知与理解
[3] 凸优化1：什么是凸优化问题
[4] 凸优化2：凸集
[5] 集成学习&强化学习及其在群体学习&群体决策中的借鉴意义
[6] 凸约束机器学习模型的探索及其可解释性思考
[7] 小扰动线性化思想在机器学习中的跨界应用
知乎 × 2
[1] 浅谈摄影
[2] 乡村
[3] 摄影的审美观和价值观
读书会投稿文章 × 2
[1] 发起书：关于一个读书会(2021No.1)
[2] 拼多多事件思考和内卷 (2021No.2)
建党百年征文投稿
一篇诗歌《赞歌》

两个小团体

读书会
常年佛系，信马由缰。偶尔约约稿，也不会催更，就是玩…不打广告，没有链接，有兴趣可以私信单聊。
内部刊物，一个简报：
2021No.1
2021No.2
2021No.3
赶鸭（压）队
组队参加了一个公益性质的科技创新比赛，提交了《压力树洞》项目方案，针对的问题场景如题。队名是一个妹子起的，感觉非常6。
大概涉及的技术点：
- 基于NLP的用户画像，
- 用户画像辅助的好友推荐
- 用户画像辅助的智能问答定制

半马

四月份，无锡马，快乐~

【汇跑赛事】亲爱的xxx选手，恭喜您完成2021COLMO洗衣机无锡马拉松半程马拉松项目，参赛号Fxxxxx，枪声成绩02:24:31，净成绩02:06:19。该成绩仅供参考，成绩报告预计明日可在官网查询。COLMO洗衣机提醒您：完赛后不要立刻停下步伐，多进行拉伸，让身体各部位肌肉得以放松；尽快补充水分、电解质、碳水化合物和蛋白质，加速恢复；及时更换干燥的保暖衣物，谨防感冒或失温；保持饮食清淡和充足的睡眠。明年春天，我们锡城再见！获取您的参赛照片：https://l2s.us/59RPXc

一点思考

1. 技术上的相通性

随着知识面的不断扩大和深入，越发的感觉到，技术上，尤其是思想和思路上，很多东西是相通的，值得相互借鉴，相互补充。

【1】一个例子，本科学控制论时，里面的PID控制，和数据分析里的ARIMA自回归模型，简直如出一辙…

【2】再一个例子，本科的时候接触CFD，用有限元和数值方法，求解偏微分方程，有(易获取的…)商用软件ICEM、FLUENT等，大量的迭代，讲究多核并行计算；硕士之后，聚焦做机器学习(ML), 用最大似然、EM、梯度下降等数值方法，求解(条件)概率密度函数，有开源的成熟框架TF、Keras、Torch等，大量的迭代，讲究多GPU/多机并行训练。。。这么一类比，CFD的一些发展历程，或许也能给ML在未来的发展路线，提供一点相似的经验：从粗放到精细，从浮于表面的调包调参，到逐渐深入数学核心的深层理解。

【3】最后一个例子。了解过推荐算法之后，发现之前用强化学习等思路做相关项目时，在实践中摸索出的一些Embedding和特征交叉的经验技巧，在推荐领域里，有些都是普通的常规操作。如果把顺序反一下，先有推荐算法的知识储备，再去用强化学习去做推理和归因分析的项目，没准能少走不少弯路。

另外，因为实际上已经有了强化学习的基础，当看到推荐算法的文章或书目里面，出现关于如何应用强化学习的叙述时，比如DRN，反而感觉作者对DRN的一些使用方式有点简单和草率…实际上，或许有更精巧高效的应用技巧和使用方式。

不过，千金难买早知道，还是要继续学习，一边扩大技术广度，一边增加技术深度。当站在一个更高的维度，或者一个其他的视角时，很多问题或许就变得简单了。

2. 机器学习发展趋势

【1】从感知AI到决策AI。从关心what，到关系how和why。补上了决策AI这一环，从技术到业务的落地链条，感觉更完整了。

【2】关注可解释性。关于可解释性的一些尝试或思路：知识图谱，决策树，注意力机制，隐层可视化，降维思想和流形学习，强化学习和过程性决策等。可解释性AI的发展，让技术落地到业务场景时，更直观，更稳健，更摸得到头脑。

【3】领域知识和学习算法解耦，逐渐打破领域知识的围城。

2012年AlexNet，自动提取图像特征，用于计算机视觉，SIFT等设计精巧的手工特征逐渐黯淡失色，benchmark数量级般提升；
2016年Deep Crossing，自动进行特征组合和特征交叉，用在推荐系统，不需要人工根据经验，设计特征、规则或者阈值；
2017年AlphaZero首次不依赖人类知识，自我学习，在围棋领域，战胜了亲哥哥AlphaGo

当领域知识和学习算法解耦，大量精于ML的算法工程师或专家涌入传统领域，很多新方法、新思路鱼跃而出，助力传统领域逐渐完成数字化/智能化升级，生产力进一步解放。

而作为智能化升级的基础，标准化和平台建设必不可少，包括数据标准化、操作流程标准化等。例如：

CV界的产业升级，得益于庞大的视觉数据集，ImageNet,COCO,D2City等；
推荐系统的产业升级，得益于电商的爆发，海量点击/转化数据的快速积累；
RL助力长期规划和决策过程，例如AlphaGo等各种游戏机器人，得益于完备高效的交互/环境仿真平台。

也只有在上述基础之上，机器学习的更高层次——深度学习DeepLearning，尤其是深度学习中端到端的思想，才能逐渐发挥出更大的力量，表现出强大、复杂、非线性的拟合、归纳和推理能力。相反地，没有标准和平台，传统行业更容易陷到领域知识的围城中，陷到传统视角和传统方法中，难以突破，停滞不前。

不过，没有绝对的正确和先进，一些业务场景，领域知识依然要发挥不可或缺的作用。以ML强大的归纳拟合能力为主，以领域知识的稳定安全为辅，协调配合，实现强大稳健的系统特性。

3. 团队建设和技术储备

正如上面提及，各种技术发展突飞猛进，待解决的问题也日益复杂，对技术深度和广度的需求都日益增强；同时领域知识和学习算法的解耦，也加快了行业细分。

于是，以团队为基本单位，科学配置，高效协作，合力解决问题的能力，显得更加重要。

相反的，单人时间精力有限，很难面面俱到。而各自为战的小规模手工作坊模式，如果没有科学的合作机制，也很难发挥出应有的力量。

大概夏天还是秋天，有感于昨天今天明天的一些团队问题，煞有介事地画了个图。用RL的话说，从旁观者视角，做了一次异策学习。

异策学习，off-policy，“旁观者”视角，理想中的应对策略在实际中不一定会实施，事件发展或状态转移也不受控于自己；例子：通过看别人下棋，自己逐渐学会下棋。别人下棋好坏，对自己都有所借鉴和提升；
与之相对的是on-policy，同策学习，“当局者”视角。对应的例子：自己下棋，从中试错摸索，逐渐学得更好。

然而，当局者未必迷，旁观者未必清，毕竟资历水平有限，心有余力不足，所以也仅限于想想。尽人事听天命，做好自己的事情就好；至于其他的，自己觉得对，想做就去做。也没准过个五年十年的，再回头看，会想当时想法真是简单，但也是个不错的经历。