- 深度学习用于表格结构数据的建模,效果一般比较差,但有一个例外的情况是TabNet(TabNet的参数可以调整以提高结构化数据建模的精确度)
- 树模型分割节点的选择 pre sort method. nlog(n)排序算法。分箱后,再去找分位点就不精确了;但实际中它的影响很小。同一个箱子内的点的梯度一样,则减小了梯度计算的复杂度
- 理论上推导;实际上必须去试(面试中被允许的说法为:在实践中发现XXX)
- 判断数据集是否具有权威性,才能比较不同算法的优劣
TabNet
- poker hand dataset:是确定的(总共就54张牌),给顶规则,人可以做准确无误的分类预测,没有随机噪音。基于这种数据集构造的模型没有意义。
- 论文中,比proposed algorithm得到的结果好的模型,一般不写。
- feature transformer中,部分参数是共享的,部分参数是不共享的。这样做相比参数全部不共享的优点是省内存,相比参数全部共享的优点是提高模型表现力
- feature transformer本质上是一个全连接层,transformer(矩阵乘)相比全连接层的优点为的表现力更强。
- prior scale: 原文写,之前出现过的项(M是对稀疏程度的惩罚项)
pytroch
- 优化器的状态在训练时耗费计算资源
- amp
- meshTensorflow
- 半精度训练 :amp
- 梯度累积:网络太大,一个梯度都无法计算
- 部署:tensorRT,TFServer
- 负载均衡的问题在很多情况下框架无法解决
- 和tensorflow的区别:前者:动态图更慢;后者:先跑一边,即先优化一遍
- pytorch lightning: 检查BN,dropout是否有用