![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
AI论文精读--李沐
文章平均质量分 85
-小透明-
记录自己的一些学习笔记。
展开
-
GPT---1234
本系列的目标是,通过逐段逐句精读OpenAI系列论文,逐步逼近ChatGPT的底层原理,揭开ChatGPT的神秘面纱。的概念,在很多NLP数据集上都取得了非常好的效果,包括翻译、问答、完形填空,以及一些需要实时推理和领域适应的任务(如整理单词、在句子中应用新单词、计算三位数的算术等复杂任务)。只要语言模型的容量足够大,训练集足够丰富,仅仅依赖语言模型的学习,便可以同时完成其他有监督任务的学习。核心思想:训练一个通用的预训练模型,使下游任务无需手动生成或标记训练数据集,更无需更改预训练模型的参数或结构。原创 2023-08-25 11:04:59 · 2121 阅读 · 0 评论 -
Swin Transformer
首先通过 Patch Partition ,变成 (H/4)*(W/4) * 48 的图片,再依次通过 Stage1、Stage2、Stage3、Stage4,Stage2 在 Stage1 的基础上下采样了两倍,Stage3 在 Stage2 的基础上下采样了两倍,Stage4 在 Stage3 的基础上下采样了两倍,在下采样的过程中 channel 会翻倍。但为了分别计算不同区域各自的注意力,不计算不同区域的信息,将其减去100,经过softmax之后,都变成0,因此得到的还是只有同一区域的信息。原创 2023-08-16 16:32:27 · 267 阅读 · 0 评论 -
Advancing mathematics by guiding human intuition with AI
BSD 猜想,数学家用计算机辅助计算一些简单的情况,从而抽象出一个更一般的结论只有庞加莱猜想被解决;Richard 计算机理论研究者,一个算法的复杂度的上下限,通过计算机模拟逼近曲线的形状,然后猜想数学结论 or 证明的思路是什么。数学家的直觉:需要思考 2个 不同的数学物体之间的联系,猜 x(z) 和 y(z) 的联系。数学归纳法:n=1、2、3的简单例子,找规律;ML 学习 1个 四维的常数值,得到学习的常数值后,用严格的数学推理来证明猜想。更复杂的例子,ML 要学的函数 f 更复杂、维度更高;原创 2023-08-16 14:27:07 · 222 阅读 · 0 评论 -
对比学习论文综述总结
从第一阶段可以看到:它们使用的代理任务是不一样的,有个体判别,有预测未来,还有多视角多模态;它们使用的目标函数也不尽相同,有 NCE,有infoNCE,还有NCE的其它变体;它们使用的模型也都不一样,比如说invariant spread用了一个编码器;Inst Disc用一个编码器和memory bank;cpc有一个编码器,还有一个自回归模型;cmc可能有两个甚至多个编码器;它们做的任务从图像到视频到音频到文字到强化学习,非常的丰富多彩。到了第二阶段很多细节都处于统一了,比如说。原创 2023-08-14 19:47:33 · 321 阅读 · 0 评论 -
MoCo论文精读
最广为应用的代理任务:instance discrimination,从数据集中选择一张图片,在这张图片上做随机裁剪和数据增广(都叫做Transformation),从而得到另外两张图(看着很不同,但来自于一张图,因此语义信息不应该发生变化,把其中一张作为锚点(即基准点)那么另一张图就叫做正样本,即相似的;数据集中另外的所有其他图片都认为是负样本,即不相似的)当m很大接近于1时,当前的输入影响很小,MoCo利用动量的这个特性,缓慢的更新一个编码器,从而让中间学习的字典中的特征尽可能的保持一致。原创 2023-08-14 10:41:25 · 93 阅读 · 0 评论 -
MAE精读
Autoencoding is a classical method for learning representations. It has an encoder that maps an input to a latent representation and a decoder that reconstructs the input.自编码是学习表征的经典方法。它有一个将输入映射到潜在表示的编码器和一个重建输入的解码器。原创 2023-08-01 10:16:44 · 200 阅读 · 0 评论 -
Vision Transformer (ViT)
生成式模型与判别式模型,是指,然后利用该模型来生成新的数据。生成式模型的典型代表是,该模型通过学习数据的分布来建立概率模型,然后利用该模型来生成新的数据。,是指,然后利用该模型来预测新的输出。判别式模型的典型代表是,该模型通过学习输入和输出之间的映射关系来建立分类模型,然后利用该模型来预测新的分类结果。:决策树、朴素贝叶斯、隐马尔可夫模型、条件随机场、概率潜在语义分析、潜在狄利克雷分配、高斯混合模型;:感知机、支持向量机、K临近、Adaboost、K均值、潜在语义分析、神经网络;原创 2023-07-27 22:18:49 · 1143 阅读 · 0 评论 -
BERT精读
pre-training:在一个数据集上训练好一个模型,这个模型主要的目的是用在一个别的任务上面。别的任务如果叫training,那么在大的数据集上训练我这个任务叫做pre-training。NLP任务中使用没有标号的大量数据训练出的模型效果比在有标号的数据上训练效果好,同样的思想,在CV中,可能使用小的没有标签的数据训练的模型比在imagenet上训练的模型效果好。原创 2023-07-20 21:34:18 · 223 阅读 · 0 评论 -
Generative Adversarial Network
2014年。原创 2023-07-19 18:46:42 · 978 阅读 · 0 评论 -
A Gentle Introduction To Graph Neural Networks
基本所有数据都可以表示成一个图,这也使得在图上做优化很难,因为它是一个稀疏架构,每一个结构是动态的,如何在CPU、GPU和加速器上进行计算是一件很难的事。另外,GNN对超参数很敏感,整个网络架构什么样、如何采样和优化这些温特都使得GNN的门槛很高,目前应用较少。GNN:是一个将图的所有属性进行可优化的变换,并保证图的对称性。输入一个图,输出一个图,不改变连接性。route (or pass) information 传递信息。convolutions over images 图像卷积。原创 2023-07-18 22:40:53 · 543 阅读 · 0 评论 -
Attention Is All Your Need
注意力机制:注意力函数quary(不同的q) 和 k 的相似度决定了value对应的权重(不同的权重)相加得到 (不同的)输出。原创 2023-07-17 16:03:36 · 217 阅读 · 0 评论 -
Deep Residual Learning for Image Recognition
从图可以得到的结论:深的网络更难训练 ( 不仅因为过拟合,因为训练时误差都很难降低 )原创 2023-07-16 14:50:38 · 194 阅读 · 0 评论 -
深度学习奠基作之一:AlexNet
论文:第一遍(读摘要、结论、图表)第二遍读每一段(方法上的东西)第三遍理解精读(复现)论文第一部分通常是:讲一个故事(即他们在做什么研究?哪个方向?这个方向有什么东西?为什么很重要?主要的贡献是什么?原创 2023-07-15 18:50:49 · 538 阅读 · 0 评论