文章目录
- 1. 模型选择
- 2. 过拟合和欠拟合
- 3. 代码
- 4. Q&A
-
- 4.1 SVM和神经网络相比,缺点在哪里
- 4.2 训练集验证集测试集比例
- 4.3 时序预测问题中的测试集训练集
- 4.4 验证集和训练集的预处理(如异常值处理和标准化)是否需要放在一起做?
- 4.5 深度学习的数据集一般比较大,k折交叉验证在深度学习中用的很少,训练成本很高(k折交叉验证的问题都在这里)
- 4.X 上面引出的一个问题,为什么同样的模型,同样的超参数,初始化不同,但是最后集成都会好一些
- 4.6 模型参数和超参数
- 4.7 如何有效设计超参数,是不是只能搜索,最好用的搜索方法是贝叶斯还是网格,还是随机
- 4.8 假设做一个二分类问题,实际两类数据占比1:9,那么训练集该怎么划分呢?
- 4.9 样本类别不平衡问题
- 5. 过拟合/欠拟合,方差和偏差
1. 模型选择
https://www.bilibili.com/video/BV1kX4y1g7jp?p=1
比如说,银行雇你去调查贷款情况,然后你拿到了一些数据。你的任务就是找出那些欠钱不还的人/违约的人。
- 然后你发现那五个违约的人在申请贷款的时候都穿了蓝色衬衫(蓝领)
- 模型也发现了
- 但是这个信号其实不足以说明问题,可能刚好面试那天穿了蓝色,第二天也许是红色呢?
- 所以模型很容易被这种看似有道理的信号给误导,所以遇到这种问题的时候主要是看损失!