论文收集
文章平均质量分 78
大鸣王潮2024
有书读了
展开
-
VIT论文阅读
卷积神经网络不是必备的,一个纯transformer表现也是非常好的2500天tpu v3大规模上预训练,小规模任务数据集上微调。扩大模型时候还没观察到瓶颈(还没出现过拟合)?轴注意力机制:把2d的图片注意力分成从H和从W出发两个1d的注意力机制将224x224的图片根据16x16的patch划分成为14x14,使用特征图展开成1d来进行attention操作在不加强约束的情况下,transformer效果是比Resnet差的,因为少了归纳偏置1是本地偏置,相近的特征会相邻;原创 2024-09-09 14:32:09 · 479 阅读 · 0 评论 -
Moco论文阅读笔记
把对比学习砍成一个字典查询的任务。动态字典两部分组成,一个是队列,一个是移动平均的编码器,让字典里特征尽可能一致。Moco学到的特征能够很好迁移到下游任务。(最大的卖点)原创 2024-09-09 14:29:25 · 654 阅读 · 0 评论 -
MAE阅读笔记
随机的盖住图片里的一些快,再去重构里面所有的像素编码器0解码器结构训练的效率比较高,编码器只计算被遮住的部分,所以整体计算量小一些挑战只是用小的训练集,然后效果达到和大模型一样的CV领域内大部分数据集都使用有监督学习,MAE开创了自监督学习的先例图片和语言的不同。在图片的一个patch里面,不一定含有语义信息。transformer是能学到图片中隐含的丰富语义信息的。社会影响:可以生成不存在的内容,还有就是有个偏差,因为用的自监督,某一类图片较多的话可能会太过倾向。原创 2024-09-09 14:21:43 · 258 阅读 · 0 评论 -
GNN图神经网络
distill的图非常出色,文字大多是在解释图分为顶点,边,全局信息一共三种embedding图片变成图,像素点和节点一一映射文本作图:相邻的文字之间有一条有向边分子图?社交网络wiki的知识图cora的引用图图是强大的工具,但是带来了很大的挑战。他的结构是动态的,架构是稀疏的,如何在GPU上计算很难。对超参数敏感。原创 2024-09-09 11:53:58 · 568 阅读 · 0 评论 -
BERT_
BERT使用了左侧和右侧的信息预测未来(双向)主要工作把前人的结果拓展到深的双向的架构上面,使得同样的预训练模型能够成功处理大量得那不一样的自然语言的任务具体来说不是把语言模型变成预测未来,而是变成完形填空。原创 2024-09-09 11:51:18 · 439 阅读 · 0 评论 -
AttentionIsallyouneed
RNN是时序,一步一步进行,难以并行transformer强大。原创 2024-09-09 11:45:39 · 138 阅读 · 0 评论 -
如何读论文
读三遍法则第一遍:标题、摘要、结论。可以看一看方法和实验部分重要的图和表。这样可以花费十几分钟时间了解到论文是否适合你的研究方向。第二遍:确定论文值得读之后,可以快速的把整个论文过一遍,不需要知道所有的细节,需要了解重要的图和表,知道每一个部分在干什么,圈出相关文献。觉得文章太难,可以读引用的文献。第三遍:提出什么问题,用什么方法来解决这个问题。实验是怎么做的。合上文章,回忆每一个部分在讲什么。一般几个途径:google(能索引到知乎、b站、csdn、个人博客等)原创 2024-09-09 11:34:41 · 159 阅读 · 0 评论