1. 以下是常用的模型介绍
线性回归模型:https://zhuanlan.zhihu.com/p/49480391
决策树模型:https://zhuanlan.zhihu.com/p/65304798
GBDT模型:https://zhuanlan.zhihu.com/p/45145899
XGBoost模型:https://zhuanlan.zhihu.com/p/86816771
LightGBM模型:https://zhuanlan.zhihu.com/p/89360721
2. 推荐教材:
《机器学习》 https://book.douban.com/subject/26708119/
《统计学习方法》 https://book.douban.com/subject/10590856/
《Python大战机器学习》 https://book.douban.com/subject/26987890/
《面向机器学习的特征工程》 https://book.douban.com/subject/26826639/
《数据科学家访谈录》 https://book.douban.com/subject/30129410/
3. 调整数据类型,可以减少数据在内存中占用的空间
4. 没看懂= =
'intercept:'+ str(model.intercept_)
sorted(dict(zip(continuous_feature_names, model.coef_)).items(), key=lambda x:x[1], reverse=True)
5. 回归分析的五个基本假设 https://blog.csdn.net/Noob_daniel/article/details/76087829
6. 线性回归模型的截距(intercept)与权重(coef)
7. 对长尾分布的数据做了log(x+1)的变换后靠近正态分布的形状了,从而模型效果更好?
8. 平均绝对误差计算 https://blog.csdn.net/stupidautofan/article/details/79556087
9. 运用sklearn实现k折交叉验证 https://blog.csdn.net/qq_36523839/article/details/80707678
10. 真实业务和时间有关,所以采用前4个做训练集,第5个做测试集会合理一点
11. pandas的reset_index(drop=True) https://www.cnblogs.com/Allen-rg/p/9694979.html
drop为False则索引列会被还原为普通列,否则会丢失
12. 用简单易懂的语言描述「过拟合 overfitting」? https://www.zhihu.com/question/32246256/answer/55320482
模型复杂度与模型的泛化能力 http://yangyingming.com/article/434/
正则化的直观理解 https://blog.csdn.net/jinping_shi/article/details/52433975
13. 一般认为参数值小的模型比较简单,能适应不同数据集,一定程度可以避免过拟合现象。也很好理解,当参数过大的时候,抗扰动能力自然变弱了
14 没看懂“ L1正则化有助于生成一个稀疏权值矩阵,进而可以用于特征选择。... 除此之外,决策树通过信息熵或GINI指数选择分裂节点时,优先选择的分裂特征也更加重要,这同样是一种特征选择的方法。XGBoost与LightGBM模型中的model_importance指标正是基于此计算的”
15.常用模型与线性模型进行效果比对:非线性模型用了 决策树,随机森林,梯度boosting,MLP
回归,XGB回归,LGBM回归
16. numpy.ptp()最大值与最小值的差