100天机器学习挑战汇总文章链接在这儿。
目录
上图中介绍了线性回归中涉及到的重要的概念,如多重共线性、哑变量等,便于阅读我做了批注。
具体的内容可以复习我的这篇文章。
Day3的coding与Day2的十分类似,可以作为参考。
Step 1:数据预处理
这里相比于Day2来说,多用到了一个OneHotEncoder函数:
独热编码(One-Hot Encoding):
在数据处理和特征工程中,经常会遇到类型数据,如性别分为[男,女](暂不考虑其他。。。。),手机运营商分为[移动,联通,电信]等,我们通常将其转为数值带入模型,如[0,1], [-1,0,1]等,但模型往往默认为连续型数值进行处理,这样其实是违背我