- 课堂笔记
本节课解决训练和验证/测试不同分布的问题(数据不匹配)
这个问题实际上没有非常准确的解决办法,给出了两种办法:
- 进行手工误差分析,查看到底训练和验证数据到底有什么不同;
- 让训练数据和验证数据更相似,比如收集更多和验证/测试集相似的数据。
个人感觉上面是一种方法,只是第一种先排查,第二种去解决。
另外一种解决方法:人工合成数据。
车内语音助手的激活问题,可以人工合成激活语音和车内的噪音,得到带有噪音的激活语音,但是可能你只录了1h的噪音,却有10000h的语音,就可能对那1h的噪音过拟合,而那1h的噪音只是噪音域很小的一部分,如上图。