前言
本篇是自己对半年的学习总结。
半年的思考与感悟
由于今年的特殊情况,所以和大多数人一样,在家自学半年。在此期间,增加了一定的论文阅读量,完成了部分论文的复现工作,同时也在撰写自己的论文,水了几场比赛。公众号,起初是为了记录自己的学习过程,现在也逐步成为认识其他优秀的大佬的途径。最近因为论文、建模等原因,所以一直没更新,这次便写一篇来对自己半年的工作进行总结。
1. 论文阅读
作者的方向是推荐系统,现在更精确的是专注于序列推荐,所以阅读的论文绝大部分是与推荐、CTR预估相关。论文阅读是对整个专业方向认知的最快途径,到目前为止,相关论文的阅读大概有30余篇,也有了自己的一些理解与体会(虽然还没有创新点),例如对于召回和排序来说,当时看了一些工业上的论文才明白具体的划分情况。
2. Github---论文复现
部分论文我会对其进行复现。由于部分论文的开源代码一般会采用Tensorflow1.x版本,自己学的又是2.0,因此想重新进行复现增加对模型的理解。刚开始只是简单的将自己做过的一些内容上传到GitHub,但7月看到有9个star时,就萌生了好好做下去的念头。其实已经有很多优秀的开源项目可以直接调用,自己想要与其进行区分,就要考虑到面向的对象:与我一样,正在复现论文的同学。因此,便有了我在Github上提到的项目特点:
使用Tensorflow2.0进行复现;
每个模型都是相互独立的,不存在依赖关系;
模型基本按照论文进行构建,实验尽量使用论文给出的的公共数据集;
具有Wiki,对于模型、实验数据集有详细的介绍和链接;
代码源文件参数、函数命名规范,并且带有标准的注释;
目前已完成14个模型的复现,拥有「219个star」,希望能给看到的同学一些帮助。
「GitHub地址」:https://github.com/ZiyaoGeng/Recommender-System-with-TF2.0
3. 比赛
比赛可能是自己一直的执念。到目前为止,参加了3个比赛:2020腾讯广告算法大赛、2020科大讯飞---温室温度预测、2020华为精英挑战赛。没有Kaggle的比赛,是因为没找到合适自己的内容,毕竟结构化的数据比赛越来越少了,CV、NLP又不是自己的方向。
5月份的腾讯广告算法大赛,大概只做了10天,还发过一篇Baseline的文章,当时没有做下去的原因是缺设备,学校的实验室关了,只能拿自己的电脑跑,数据量又很大,所以最后放弃了。
7月-9月的科大讯飞的温室温度预测比赛,自己学习到的内容有很多,之后也会写一篇总结。初赛时,也非常感谢很多大佬的Baseline,给了自己思考的方向。最后也和几位大佬共同组队,在700多支队伍中排第28名,进入复赛。复赛由于队友各自有事,只有自己提交了3次,最后的结果是24名。其实挺遗憾的,要是能坚持做下来,应该会取得不错的结果。
8-9月还参加了华为精英挑战赛,有两位同学通过知识星球找到我,看了我的GitHub,想和我一起组队,并提供服务器资源,所以便接受了。赛题是CTR预估,当时想证明自己目前的学习结果,所以放弃了温室温度比赛,一心做CTR预估。事实证明,自己还差的很远,只会CTR模型调用,特征的处理、样本的划分都做的很差。对于两位队友,真的非常抱歉,已经提供了计算资源,自己却还是没有取得成果。
4. 论文
自己期间还在写着一篇与自己研究方向无关的论文,不过效率很低,接下来尽快把这部分工作做完。
5. 其他
期间还学过一些其他的内容,例如爬虫、Django等,机器学习也在反复地啃。
6. 总结与展望
以上便是这半年来的一些学习的情况,对比很多大佬写过的总结,发现自己学习的效率实在是太慢。接下来,公众号的内容基本会围绕序列推荐展开,中间也会穿插自己比赛的复盘、机器学习笔记、Latex笔记等。
关于推荐系统交流,考虑到很多同学和自己一样周围没有同专业方向的交流,因此自己也建立了一个「推荐&CTR交流群」,人数不多,但都很优秀。想要入群的同学,可以加我好友。
关于比赛,若是不嫌我菜,可以邀请我一起打比赛(CV、NLP除外)。
最后,非常感谢各位关注和阅读!
往期精彩回顾
【论文导读】ICDM2018|SASRec---基于自注意力机制的序列推荐(召回)
【论文导读】DLP-KDD2019|BST---使用Transformer进行序列推荐
NIPS2017|行为序列建模的方式---Transformer
如何有效的学习Pandas?---比赛+整理,附Pandas思维导图
扫码关注更多精彩
点分享
点点赞
点在看