lays可以增加model的弹性,是不是因为layers可以增加样本数,wx
当选用的函数值使得增加的样本与原分布不同时,
训练集与测试集差异大,
层数越多,模型的非线性拟合能力越强,
但是层数越多也越容易过拟合
另外:训练集高分,测试集预测低分,首先需要区分是分布不同还是时序原因;分布不同的话,贝叶斯的最大后验估计要共轭先验,那非共轭分布怎么处理,这个是不是典型的训练集,测试集分布不同,看到过质量控制有关非共轭分布的文章,没有深入研究,感觉非共轭分布可能真实还蛮多。Gibbs采样什么的,都需要好好研究;时序原因的话,如果因为突变造成的“分布”不同,要考虑突变是不是噪声,噪声可以通过滤波去除,如果不是噪声,信号也可以通过滤波等方法提取出来。
当训练样本不足时,如此增加训练样本(分布相同)
太多限制也会overfitting
李宏毅老师机器学习的note