2022回顾&2023规划

哈喽十八子

已于 2023-01-07 18:53:50 修改

阅读量906

点赞数 1

分类专栏：杂七杂八文章标签：人工智能深度学习推荐算法强化学习

于 2023-01-07 18:04:43 首次发布

本文链接：https://blog.csdn.net/qq_36870202/article/details/128592954

版权

杂七杂八专栏收录该内容

4 篇文章 1 订阅

订阅专栏

2022回顾&2023规划

前几年都用的《T年总结&T+1年规划》，最近突然感觉“总结”这个词有点绝对了，有点盖棺定论的意思，就换成了“回顾”。毕竟只是站在2022年年底、2023年初的视角，回顾2022年。随着时间推移，视角也会变，在未来的不同时间，或许又会对2022年有各种各样的想法，没有盖棺定论的那一天，所以觉得“回顾”比“总结”好一点，虽然两者差别不大。

《2020总结&2021规划》
https://blog.csdn.net/qq_36870202/article/details/113475138
《2021总结&2022规划》
https://blog.csdn.net/qq_36870202/article/details/121428971

2022年结束了，大家都很开心，朋友圈里欢天喜地，鞭炮齐鸣，比往年隆重的多。这种隆重，可能是主观感受，可能是客观现实，可能都有，但无论怎样，辞旧迎新带给人们的快乐和期盼是肯定的。大家希望疫情快过去，疫情前的生活快回来。

尽管2023年1月1日0点0分这一瞬间，只是被人为约定的一个时间分界，某个时刻的命名而已，没有太多的实际意义，但人们的愿望总是美好的：新的一年，新的希望。

平常心

现在看，2022年的确发生了很多事：疫情反复、社区封控、居家办公、感染新冠、恢复转阴、等等。2022年是特殊的一年，难忘的一年。老话说的“疫不过三”，2022年就是那个“三”。想必若干年之后，和朋友们聊到2022年，还是会是百感交集，历历在目。但时间终究会冲淡一切，今天的起起伏伏、轰轰烈烈，又或鸡毛蒜皮、鸡零狗碎，在未来的某一天看起来，可能也就是多了一些谈资罢了。

还是要平常心。向后看，过去终究是过去，既然改变不了，想太多也是费神；向前看，是福不是祸，是祸躲不过，走就是了。

好的不好的，都会过去。发展总是波动的，没有永远的顺风顺水，也没有永远的一落直下。就像市场一样，牛市有牛市的激情，熊市有熊市的微妙。遇到“牛市”，就抓住机会，努力收获；遇到“熊市”就放平心态，提升自己。迷之自信，或自怨自艾，都是两个极端，介都没有拥，平常心就好。

2022回顾

每到年底，一闭眼想想，今年都干了点什么，就总是千头万绪，剪不断，理还乱。但再乱还是得理，早理早不乱，越拖越难理。

大概梳理一下，主要有这些：

1. 填坑系列

主要是去年，也包括前年，开始对工作学习中涉及到的一些技术的理论基础，进行梳理和总结，陆陆续续地写到了博客。随着逐渐深入，发现需要投入的空闲时间远比想象中多得多。但坑已经挖好了，又不能不填，于是挑重点，主要是大框架的形式，抓紧时间收了个尾。时间有限，略显匆忙，但好在相对完整了，只是很多细节没有展开，不过大多细节也没有展开的必要。

其中主要涉及的技术方向：强化学习、推荐系统、凸优化、图神经网络。

1.1 强化学习系列

强化学习_知识框架&笔记（Sutton）
https://blog.csdn.net/qq_36870202/article/details/122184703
强化学习_知识框架&笔记（Python）
https://blog.csdn.net/qq_36870202/article/details/122184740
强化学习_经典论文框架
https://blog.csdn.net/qq_36870202/article/details/122831467

整体看来，对于强化学习领域的两个分支大类：

价值学习。学习价值函数 $Q (s, a)$ ，动作 $a$ 简化为离散有限的集合；相对简单，但也基本能解决大部分问题；
策略梯度。学习策略函数 $a=\pi(s)$ ，动作 $a$ 为连续的概率分布；相对完备，但也更加复杂;

目前，只对第1个分支有相对较多的了解和实际应用；至于第2个分支，后面看是否有相关需求或者时间计划，再查漏补缺。

1.2 推荐系统系列

《深度学习推荐系统》学习笔记(1)——概述（思维导图）
https://blog.csdn.net/qq_36870202/article/details/122201681
《深度学习推荐系统》学习笔记(2)——传统推荐模型
https://blog.csdn.net/qq_36870202/article/details/122201792
《深度学习推荐系统》学习笔记(3)——深度学习推荐模型
https://blog.csdn.net/qq_36870202/article/details/122222690
《深度学习推荐系统》学习笔记(4)——Embedding（思维导图）
https://blog.csdn.net/qq_36870202/article/details/122331762
《深度学习推荐系统》学习笔记(5)——Embedding（论文）
https://blog.csdn.net/qq_36870202/article/details/122331812

1.3 凸优化

凸优化_知识框架&笔记
https://blog.csdn.net/qq_36870202/article/details/122095767

1.3 图神经网络

图神经网络GNN_知识框架&学习笔记
https://blog.csdn.net/qq_36870202/article/details/122095876

2. 新的知识

2.1 Paper

2022年的论文阅读，主要涉及：推荐算法、图模型、知识图谱、自然语言处理几个领域；

关注的方向，大概涉及：多领域交叉、多模态融合、多目标优化，模型解释性，图计算，序列模型；

其中，只对经典、著名的一部分做了多多少少的整理，有些写到了博客。其他的，大多数只是看个思路，看看有没有可借鉴的新思想，或者了解一下最新动态，没怎么花时间整理。

整体上，随着技术的发展，单一领域的ML问题，相信会逐渐完善，各种解决方案也会趋于饱和，提升空间逐渐压缩。例如CNN中著名的AlexNet，其在ImageNet竞赛中的名声大噪，已经是10年前的事情了，在这10年里，不知道被各种真真假假的sota超越了多少次。

现如今，单一领域、或黑盒模型、或简单的问题场景等等，已经不能满足人们对ML的应用需求。人们的关注正向着不断深入、复杂的方向发展，例如交叉领域、可解释模型、非典型的问题场景（例如小样本、多模态输入）等等。相信这也是未来的发展趋势。

2.2 数学类

从最早用VAE，到后来的一些工作接触，例如用凸优化寻找最优分配策略，渐渐地变分法和泛函这类经常提到、但又不太了解的数学领域，产生了兴趣，于是2022年入手了两本专业书，想大概了解一下；

《实变函数论与泛函分析》上、下

然而时间有限，主要是时间零散、断断续续，逻辑思路经常打断，效率不高。目前的进度，大概只接触了集合、测度、和度量空间三大部分，算下来可能1/3都不到。只能看后面有没有时间再继续，毕竟不紧急也不重要。

虽然进度和速度堪忧，但好的方面也逐渐显现。之前看一些技术理论基础，还是有很多不求甚解的地方，每次遇到后，在不影响整体理解的前提下，在心里和资料上打个问号，也就凑合着过去了，时间久了也就忘了，一起忘了的还有一些其他的细节，包括没有打问号的。但随着数学的查漏补缺，之前打过的问号，偶尔会突然想起来一两个，“原来那个地方是那个意思”。。。感觉像进了一个新维度，再看老问题，就突然有点理解了。

3. 新的积累

3.1 博客类

杂七杂八，涉及NLP、推荐算法、图学习、ML科普，等等。

《word2vec Parameter Learning Explained》论文笔记
https://blog.csdn.net/qq_36870202/article/details/122441344
【IJCAI2021】《Graph Learning based Recommender Systems:A Review》论文笔记
https://blog.csdn.net/qq_36870202/article/details/121872115
【ESMM论文精读】Entire Space Multi-Task Model: An Effective Approach for Estimating Post-Click Conversion
https://blog.csdn.net/qq_36870202/article/details/125772727
【DIN论文精读】Deep Interest Network for Click-Through Rate Prediction
https://blog.csdn.net/qq_36870202/article/details/126864173
推荐算法之–矩阵分解(Matrix Factorization)
https://blog.csdn.net/qq_36870202/article/details/123390202
视频《白话机器学习》(B站传送门)
https://blog.csdn.net/qq_36870202/article/details/125857656

3.2 模型类

主要是工作中，用到的一些模型，有的调包即可，有的手动搭建。

神经网络
- 矩阵分解（&广义矩阵分解)
- NerualCF
- DeepCrossing
- Wide&Deep
- DIN
- ESMM
树模型
- XGBoost
- RF

3.3 专利类

无脑罗列。

序号	大概内容	涉及到的技术点	备注
1	爆款商品挖掘方法	注意力机制，自回归模型
2	小语料料问答系统	轻量级NLP模型
3	个性化推荐集成学习方法	集成学习
4	个性化推荐多样性策略	表示学习，优化算法
5	多领域个性化推荐	知识图谱、图模型
6	司乘同显解决方案	引导滤波算法	公司比赛，小组方案
7	序列模型推荐方法	node2vec	只是挂个名

3.4 经验类

工作上，多了一些实际上的经验。

(1) 需求的处理

优先搞明白业务想做什么，很重要。这里的“想做什么”，不只是业务方提出的具体需求，而是TA的最终目的。有时候，业务方对技术的理解有偏差，需求里面提到的一些技术路径，有可能是弯路，不能无脑跟着业务的思路走。类似的事情今年遇到了两次。

【第1个故事】

业务方小X同学，让帮忙用Python处理一个数据，大概的逻辑是…(略)，这些结束后还有后半部分，但小X表示后半部分自己用excel处理就可以了。想着也不复杂，就没细问后面想做什么，直接上手做了，大概也就花了半小时的时间。

但后来发现后半部分比小X想象的复杂，excel处理不了，也需要Python处理。。。当听完小X把后半部分的逻辑也讲清楚后，发现两部分合起来看，反而变得简单了，或者说有技术上有更快的实现方式。。于是即便推倒了重来，也只花了大概15分钟的时间。

也就是说，本来15、20分钟可以搞定的事情，因为没有首先搞清楚需求背后的最终目的，盲目地跟着业务方的思路走，导致多走了半个小时的弯路。

这个事情不大，也不算多花了多少时间，但事情背后的逻辑，值得琢磨。这也为后面第2个故事中，没有走弯路，打下了基础。

【第2个故事】

业务方小Y同学，让把一个数据处理算法的老代码重新跑一下，拿到输出结果。

大概看了下，很久之前业务方需求变动，整套系统已经不再需要，废置很久了。突然要求重新调通，可能要花几天的时间，而且很可能是临时的需求，只用一次，后面还是会废弃下去。

有了第1个故事的的借鉴，这次没有直接上手，而是找小Y同学问清楚需求背后的最终目的，具体的，需要输出结果中的哪些数据，用来干什么。

这才发现，原来业务方需要的只是不经算法处理的原始数据，也就是需要一个读取数据的接口或demo。。。严格讲，这个需求应该提给负责数据开发的同学，我和小Y都在数据开发的下游，而并不是业务方理解的数据开发->算法（我）->业务方（小Y）的串行关系。。。

但既然找到了这里，还是本着帮忙帮到底的原则，也是避免落下踢皮球的话柄，重新去翻了接口文档（毕竟很久没用了，而且不是自己做的，很多都忘了），帮忙写了一个读取数据的demo，Python语言，算上注释大概30行，总耗时不到半小时。。。

这应该算一个成功躲开了弯路的正例。忽略沟通成本，用来解决问题的实际工作，只花了不到半小时，避免了几天的弯路。

(2) 节奏的把握

可能和上一条有一些相似的地方。大概就是做事情不能图快，不能盲目地顺着别人思路走，也不能盲目地顺着自己的思路走。

需求要搞清楚、文档要看明白、技术调研要做充分。事情着手前，多花一点时间准备充分，事情开始后就能少走很多弯路。把握好节奏，才能事半功倍；急于行动，反而要走很多弯路。

(3) 一些业务知识

一些业务上的知识，因为不成体系，只能算一些零散的经验，所以放到了这里。

其中，主要是理财、基金推荐业务中，了解到了很多金融经济方面的东西。例如、

基金的各种特征、属性、和它们的具体意义
- 单位净值、累计净值、夏普系数、最大回撤、 $\alpha$ 系数、 $\beta$ 系数等
股票的序列特征
- K线图、阴阳线序列中蕴含的市场行情信息

4. 新坑系列

有些博客，拖拖拉拉还没完成，变成了新的坑，留到了2023年。

XGBoost与可视化
【RecSys2021】《An Audit of Misinformation Filter Bubbles on YouTube_Bubble Bursting and Recent Behavior Changes》（信息茧房、回音室问题）
【2022】【SIGIR】Neighbour Interaction based Click-Through Rate Prediction via Graph-masked Transformer（多领域推荐、异质图）
【2022】【HIEN】Hierarchical Intention Embedding Network for Click-Through Rate Prediction（多层次意图表示）