写在前面
[视频学习-bilibili] | [课程主页——sample code & slide] | [ML2021学习笔记]
预备知识(常用包):
matplotlib
绘图
pandas
数据处理
numpy
数据处理
别人的修改,重点看数据分析部分
完成这个作业的收获:机器学习调优步骤:数据 – 网络 – 超参数
数据 - 数据处理,清洗,分析相关性,选取相关性大的特征
网络
超参数
修改样例代码的地方(双过srong baseline)
- 特征选取:
feats = [40, 41, 42, 43, 57, 58, 59, 60, 61, 75, 76, 77, 78, 79, 92]
- 数据集
随机
划分,且比例为0.1
:train_indices, valid_indices = train_test_split([i for i in range(data.shape[0])], test_size=0.1, random_state=1)
-------------train_test_split
在sklearn
包下:from sklearn.model_selection import train_test_split
- L2正则化:
weight_decay: 1e-3
实验记录()
收获:
15个特征选取:涉及数据处理,相关性分析【等待学习中…】
RMES:loss曲线更平滑
归一化:是整体(训练集 + 验证集)的归一化,不是每个数据集单独的归一化
L1正则化:【等待学习中…】
L2正则化:这里选取L2,且λ = 1e-3
,参考李沐老师视频-12 权重衰退【动手学深度学习v2】
k-fold:k-fold在数据集小情况下,应该是个好方法【等待 实践中…】
数据集随机
划分
改进想法:
- 数据清洗?
- k-fold验证?
- ensemble?
一些参考:
[李宏毅深度学习作业笔记]HW1 Covid-19(Regression))