Conclusion
parametric vs metric
karpathy很好的paper notes
Advantages
- 使用加权平均(metric)方法去做few-shot,优点: 速度快,需要训练量小
- 将对S的训练加入模型 pθ(y|x,S) p θ ( y | x , S ) ,具体做法是:分成task(或称为训练集)去训练, 每次选择一些类别L(label sets), 然后从中选取支持集S和batch进行训练
- 对f使用了set(unordered data)建模的方式
Disadvantages:
- 必须保证类别多?每个类别数据可以少。待验证
- 文末的几个questions
- 新的task和原有数据分布差异过大会有问题(论文中提出), 即 θ θ 分布不同
总结
- 一个可微分的end2end的KNN网络
- 重点在如何建模一个好的embedding函数(特征提取函数)
- f: f(x̂ ,S) f ( x ^ , S ) , 基于set2set LSTM
- g: g(xi,S) g ( x i , S ) , 基于bi-LSTM
Others
content based attention
Ref: 知乎过拟合的回答
建模一个向量和一个向量集合相似度的问题
从向量集合 v v 中选取一个和给定向量u相似的状态
方法一: 最邻近
- 逐个计算相似度 ai a i ,从 v v 中选取和 最相似的 vi v i
- 如果有大量相似度相近的 ai a i ,只选取一个 vi v i 只能保留一个向量,会丢失大量信息
方法二: 平均
- 对 v v 中向量进行平均得到 ,计算最终相似度
- 如果