- 在你的应用场景中,哪些特征适合放在Wide侧,哪些特征适合放在Deep侧,为什么呢?
- 为什么Wide部分要用L1 FTRL训练?
- 为什么Deep部分不特别考虑稀疏性的问题?
A1. wide是考虑其广度,可以考虑将用户和商品的基本属性导入其中,而Depp侧是可以放入商品和用户的交互特征,让深度神经网络更好的学习其交互特征。
A2. FTRL(Follow the Regularized Leader)算法可以提高OGD(online-gradient-descent)的精确度,又能获得更好的稀疏性。因此针对wide部分提取稀疏特征,使用FTRL算法更优
A3. Deep部分考虑的是表示更高维的商品/用户特征,要更高维的特征交互,就必须对输出的变量进行embedding,将他从高维稀疏的矩阵embed到低维稠密的矩阵,所以不需要考虑其稀疏性的问题
存疑:这个模型经过了五轮训练,其结果为
auc: 0.6855 - val_loss: 0.7101 - val_binary_crossentropy: 0.7101 - val_auc: 0.5214
数据的训练效果为什么较差?还有哪些能够优化的地方,
epoch=10,validation_split=0.1, )时,其结果为
auc: 0.7949 - val_loss: 0.5500 - val_binary_crossentropy: 0.5500 - val_auc: 0.8022
epoch=15,validation_split=0.1, )时,其结果为
auc: 0.9334 - val_loss: 0.5320 - val_binary_crossentropy: 0.5320 - val_auc: 0.8352
在第12/13轮左右会出现较严重的过拟合问题