理论学习
本周主要学习了数据挖掘中有关特征工程部分的知识。
特征工程(feature engineering)包括特征提取和特征选择两个方面。特征提取广义上指的是一种变换, 将处于高维空间的样本通过映射或变换的方式转换到低维空间, 达到降维的目的;特征选择指从一组特征中去除冗余或不相关的特征来降维。
同时,本周还走马观花地学习了相关模型,如GBDT,XGBoost等。并上网阅览了相关经验分享,包括如何提高准确率,是否需要剔除有关数据等等。
实践学习
本周主要进行了相应的数据预处理。
查看了相关的缺省值,并对数据缺失部分进行了填充,包括平均值法,众数法等等,都是一些较为简单的填充方法。并将一些非数值型数据转化为数值型数据。通过数据可视化,加上根据自己的直观感受,选取了一些自己感觉比较重要的数据,其他数据则直接丢弃。
由于本周恰逢国庆中秋假期,所以本周所做的工作不是很多,现在也没有得到实验数据,所以暂时没有比赛结果。