第十章扩展知识与简历书写

原创已于 2025-03-21 08:59:20 修改 · 740 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #深度学习 #自然语言处理 #bert #计算机视觉

于 2025-03-21 08:57:22 首次发布

李哥考研专栏收录该内容

6 篇文章

订阅专栏

VIT（Vision Transformer）

之前的transformer都是应用于文字，有没有方法应用到图片上。图片不是token

把图片离散化，把四万多像素（224*224）离散成token

复试的道（领域，知道哪些模型）和术（动手能力）

多模态

多模态-图文（clip模型）

BERT天然为多模态而生

只要输入维度一样，就可以进行self-attention交互

只要你的输入是一个向量，我不管它原来是什么，我只管让他与其他向量交互。

ViltBERT多模态模型

明明有transformer就可以了，为什么还要有这个

假如选了BERT，预训练都是文字，没有文字参数，把预训练参数拿过来不好用

而这个预训练参数既有图片也有文字

预训练时考虑了很多图片和文字的交互

VisualBERT

之前的几个模型平均分成几块，文字和图片间不能一一匹配

ALBEF

深度学习常见研究方向

文字生成类

命名实体识别（NER）

判断句子中的某一段是什么类别的

医学图像分类，分割，检测

小样本

训练数据只有二十个，如何达到很好的效果？
方法1：迁移学习。
方法2：数据增广。
等等。

异常检测

银行里交易正常的占百分之99.9，不正常的占百分之0.01。

模型全部推测为正常 loss依然很低

可解释性

分子结构预测（NERF）

解微分方程

颅面复原到人脸

还有之前的

普通图片分类

文字情感分类。

半监督，无监督，自监督。

分布式训练

大语言模型：LLM（Large Language Model）

transformer发展过来的。少了交互部分 crossattention部分

大模型是一个自回归的生成模型

大模型的训练方式

only decoder所以不能进行MLM训练。prompt给大模型的输入

强化学习是最终方向，未来

代码中用的细节之处。

设计更好的学习率。
设计更好的优化器。
设计更好的loss。
设计更好的模型架构
更快的计算方法
更少的模型参数

如何把学的内容写到简历之中？

实例1：回归

实例2：分类

我在一个分类数据集上，尝试了不同的模型。我对不同模型的理解。（resNet为什么这么深，vgg和resnet区别？）
我根据不同的数据集，设计了不同的模型。我是如何设计的？
我对数据做了什么处理？使用了哪些数据增广方式？为什么mnist数据集不适合用翻转？和其他增广方式对比。
1. 翻转上下翻转6翻过来为9
2. 数据增广雨天加雨雾天加雾
我是如何处理无标签数据的？半监督的实现原理。
我是如何使用迁移学习方法的。是否迁移的对比。