【数据挖掘】Task04笔记汇总

最新推荐文章于 2021-12-14 21:10:26 发布

闷闷跑圈圈

最新推荐文章于 2021-12-14 21:10:26 发布

阅读量118

点赞数

本文链接：https://blog.csdn.net/weixin_30906219/article/details/105104176

版权

1. 以下是常用的模型介绍

2. 推荐教材：

3. 调整数据类型，可以减少数据在内存中占用的空间

4. 没看懂= =

'intercept:'+ str(model.intercept_)

sorted(dict(zip(continuous_feature_names, model.coef_)).items(), key=lambda x:x[1], reverse=True)

6. 线性回归模型的截距（intercept）与权重(coef)

7. 对长尾分布的数据做了log(x+1)的变换后靠近正态分布的形状了，从而模型效果更好？

10. 真实业务和时间有关，所以采用前4个做训练集，第5个做测试集会合理一点

drop为False则索引列会被还原为普通列，否则会丢失

12. 用简单易懂的语言描述「过拟合 overfitting」？ https://www.zhihu.com/question/32246256/answer/55320482

模型复杂度与模型的泛化能力 http://yangyingming.com/article/434/

13. 一般认为参数值小的模型比较简单，能适应不同数据集，一定程度可以避免过拟合现象。也很好理解，当参数过大的时候，抗扰动能力自然变弱了

14 没看懂“ L1正则化有助于生成一个稀疏权值矩阵，进而可以用于特征选择。... 除此之外，决策树通过信息熵或GINI指数选择分裂节点时，优先选择的分裂特征也更加重要，这同样是一种特征选择的方法。XGBoost与LightGBM模型中的model_importance指标正是基于此计算的”

15.常用模型与线性模型进行效果比对：非线性模型用了决策树，随机森林，梯度boosting，MLP

回归，XGB回归，LGBM回归

16. numpy.ptp()最大值与最小值的差

关注