第三名
a-data-science-framework-to-achieve-99-accuracy
进行了数据分析和处理 画出了很多关系图 列出了各种不同模型得到的预测结果 使用超参数调整模型
具体步骤:
导包 导数据
处理空值
删除一些特征
构建新特征
对一些特征编码
分割训练和测试数据
画出各种图来进行数据分析
model:
分训练集和测试集 留出10%
比较各种方法在测试集上的效果 可视化
!算抛硬币的准确率
定义树的函数 得到准确率
计算混淆矩阵并画出
使用超参数调整模型(库中的函数):
调参前的准确率 和 之后的对比
用特征选择调整模型(dizzy)
第二名
introduction-to-ensembling-stacking-in-python
基本没画图 对数据的观察不是通过代码来实现的 是观察好了再对特征进行操作
导包 导数据
构建新特征
处理空值
手动分箱编码
丢弃一些特征
皮尔森相关的热图
生成模型
(后面的代码报错)
第一名
titanic-data-science-solutions
这个是理解起来最简单的 数据分析的简单易懂 有一定的图形 选用简单的模型 没有集成学习
导包 导数据
观察数据
看不同特征的各个种类的存活占比
画图 观察关系
构建特征 手动分箱
处理空值
用不同的基本方法预测数据
选出最优方法