5
(1)在处理结构化数据的时候,首先要对y进行分析和处理。(如将不连续的y转化为连续的y)
(2)lgb、rf的feature importance
(3)shap值。tree的feature importance和tree的路径非常相关(路径依赖)
(4)用shap做解释——局部的解释方法
(5)见过的值预测的好,对线性关系拟合不太好
好处在于以后不需要标注大量数据了
场景
词向量的问题是
如何解决呢?
不再是这个词的词向量是什么,而是这个词在这句话里的词向量是什么
我爱北京天安门。。。生成最后的一个状态向量,不足以概括整句那么长的话的信息(不足以表达),因此我们要在状态向量的基础上添加我的词向量、爱的词向量、北京的词向量。。。并且每个词向量前有一个权重,这就是attention
这边的前向神经网络是局部的前向神经网络,z1得到r1,而不是z1和z2得到r1。Thinking和别的词交互就出现在self-attention层