一、理论
理论主要是机器学习和深度学习的知识储备
1、机器学习
(1)指标:
①回归:MAE(绝对值)、MSE(均方)、RMSE(均方根)、R2
②分类:准确率、精确率、召回率、F1-score、ROC、AUC
(2)线性回归
(3)LR
(4)SVM
(5)决策树:ID3、C4.5、CART
(6)集成算法:
①Bagging:RF
②Boosting:Adaboost、GBDT、Xgboost、Lightgbm、Caboost
2、深度学习
(1)DNN(推荐、搜索方向)
(2)RNN、fast-RNN
(3)LSTM(NLP方向)
(4)CNN(CV方向)
3、强化学习
(1)强化学习基础
(2)深度强化学习
4、推荐搜索
(1)FM、FFM、DeepFM(DNN+FM)、nFFM(DNN+FFM)
(2)PNN、DCN
(3)NFM、AFM
(4)DIN
(5)XDeepFM
(6)DeepCTR官网
二、技能
1、Python
(1)列表
(2)字典
(3)函数
(4)面向对象编程相关知识(对比C++区别)
(5)内存相关知识(函数传值还是传引用)
(6)生成器、迭代器
2、Pandas等库
3、数据结构和算法
(1)字符串
(2)字典(哈希表)
(3)数组
(4)栈和队列
(5)指针
(6)链表
(7)树
(8)图
(9)堆
(10)动态规划(DP)
(11)贪心算法
(12)深度优先搜索(DFS)
(13)广度优先搜索(BFS)
(14)排序算法
4、大数据工具
(1)Spark
(2)Hadoop
(3)Hive
5、数据库
(1)sql
6、并行计算
(1)MPI
三、比赛
(1)回归:预测类比赛
(2)分类:点击率预估、反欺诈
(3)NLP:关注科赛
(4)CV:之江实验室、天池
(5)步骤:
①数据清洗
②特征工程
③模型调优(多个模型)
④模型融合(blending、stacking)