Rainylt
码龄7年
关注
提问 私信
  • 博客:201,206
    动态:16
    201,222
    总访问量
  • 164
    原创
  • 78,235
    排名
  • 569
    粉丝
  • 2
    铁粉
  • 学习成就
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:浙江省
  • 加入CSDN时间: 2018-03-03
博客简介:

lt1103725556的博客

查看详细资料
  • 原力等级
    成就
    当前等级
    4
    当前总分
    964
    当月
    3
个人成就
  • 获得208次点赞
  • 内容获得50次评论
  • 获得639次收藏
  • 代码片获得180次分享
创作历程
  • 1篇
    2024年
  • 2篇
    2023年
  • 23篇
    2022年
  • 67篇
    2021年
  • 30篇
    2020年
  • 42篇
    2019年
成就勋章
TA的专栏
  • Transformer
    9篇
  • 多模态
    4篇
  • CV
    12篇
  • XAI
    6篇
  • 11
  • 眼动
    3篇
  • Depression
    1篇
  • ADHD
    1篇
  • pytorch包笔记
    1篇
  • 高等工程数学笔记
    7篇
  • 学习笔记
    122篇
创作活动更多

AI大模型如何赋能电商行业,引领变革?

如何使用AI技术实现购物推荐、会员分类、商品定价等方面的创新应用?如何运用AI技术提高电商平台的销售效率和用户体验呢?欢迎分享您的看法

175人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Classifier guidance与Classifier free diffusion的简单理解

参考:Classifier Guidance 和 Classifier Free Guidance,一堆公式不如两行代码 - 蓟梗的文章 - 知乎Classifier Guidance和Classifier-free Guidance 总结 - 走遍山水路的文章 - 知乎场景:首先,有一个训好的diffusion模型,可以从高斯分布的噪声生成图片。现在,你希望对生成的图片加以控制,让它生成你想要的图片。
原创
发布博客 2024.05.06 ·
2715 阅读 ·
22 点赞 ·
1 评论 ·
13 收藏

Monkey: Image Resolution and Text Label Are Important Things for Large Multi-modal Models

paper :github:两点:(1)增大图像分辨率(2)丰富图像caption看起来都是很简单的方法,但是真正做的时候就会遇到各种问题。
原创
发布博客 2023.12.20 ·
1168 阅读 ·
30 点赞 ·
0 评论 ·
23 收藏

Prefix tuning-->Attention中的矩阵拆解问题

其中,f(x)是为了将K1, K2拆开成两个softmax时产生的标量,详见TOWARDS A UNIFIED VIEW OF PARAMETER-EFFICIENT TRANSFER LEARNING (ICLR 2022)由下图中可以看出,[K1, K2].T与[V1, V2]相乘==K1.T * V1 + K2.T * V2。加上原本attention的softmax的话就是。我们首先把Attention(Q, K, V)根据矩阵乘法的结合律可以等效为。为pytorch中的矩阵乘法。
原创
发布博客 2023.04.28 ·
360 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

Swap分区扩容

https://blog.csdn.net/qq_36758914/article/details/107117169 改为600权限。https://blog.csdn.net/qq_53850321/article/details/121235918 设备忙。两个扩容操作,几乎一样的,对比着加深理解。
原创
发布博客 2022.11.03 ·
252 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

BEIT-3杂谈

论文中没有给具体的预训练方法图,大概就参考上面这张Beit的图吧,Beit-3就是变成了多模态输入。跟MAE很像,主要区别在他不是还原像素、text,而是。因为MLM方法不一定需要图像-文本对,所以可以利用现有的标注较好的公开数据集,而CLIP的数据由网络采集,难免很多噪声。看到这篇的人应该都知道这篇文章的多任务SOTA结果了,我就不放那张披萨图了。至于token是怎么来的,还得再看两篇文章,等我后面再补。(2)token重建或许比原始data重建更好?...
原创
发布博客 2022.08.30 ·
936 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

What makes training multi-modal classification networks hard?

起因是作者发现在视频分类任务上,多模态模型反而不如单模态模型如上图,A是Audio,OF是光流(optical flow)。用的模型都是差不多的,举个例子,A+RGB就是在单RGB的基础上加了Audio的Encoder,然后把两个feature concat在一起,通过分类器分类。而单RGB就是直接RGB过encoder,然后过分类器分类。话说这里似乎没有在concat后增加transformer用来fuse?fuse模块或许可以一定程度上解决这个问题?...
原创
发布博客 2022.08.08 ·
1081 阅读 ·
1 点赞 ·
0 评论 ·
3 收藏

Improving Multimodal Accuracy Through Modality Pre-training and Attention

paper:发现多模态模型不同模态的收敛速度不一致,于是各自单独预训练,再用attention(非self-attn)得到不同模态的权重,乘上权重后concat->FC->logits首先讲一下这里的attention。不是self-attention那种Q*K的机制,而是直接把三个模态的feature concat后,过FC得到权重:H为三个模态(v, a, t)的feature,shape为(3,m)。输出三个模态的权重根据作者观察发现,直接训多模态模型,不同模态的Loss下降速度不一致(收敛速度
原创
发布博客 2022.07.06 ·
181 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Balanced Multimodal Learning via On-the-fly Gradient Modulation(CVPR2022 oral)

paper: https://arxiv.org/pdf/2203.15332.pdf一句话总结:解决多模态训练时主导模态训得太快导致辅助模态没训充分的问题交叉熵损失函数:其中,f(x)为解耦一下:其中,a表示audio模态,v表示visual模态,f(x)为softmax前的两个模态联合输出的logits。在这个任务中a为主导模态,即对于gt类别,a模态输出的logits更大以WaW^aWa为例,L对WaW^aWa求导:可以看到,根据链式求导法则,φa\varphi^aφa是与a模态相
原创
发布博客 2022.07.05 ·
551 阅读 ·
2 点赞 ·
0 评论 ·
2 收藏

Contrastive learning of Class-agnostic Activation Map for Weakly Supervised Object Localization and

paper: Contrastive learning of Class-agnostic Activation Map for Weakly Supervised Object Localization and Semantic Segmentation一句话总结: 认为前景和背景feature天然相似度较低,且相同纹理的前/背景feature相似度高,因此直接在feature后接分割头预测前背景分数,与feature相乘取出前/背景feature。在一个batch内降低前-背景pair的相似度,提高前景
原创
发布博客 2022.06.28 ·
812 阅读 ·
1 点赞 ·
0 评论 ·
7 收藏

似然函数的意义

什么是似然函数?一般说似然函数,是指某一参数的似然函数,比如某分布的参数θ\thetaθ的似然函数。它是给定样本值下,关于参数θ\thetaθ的函数:左边是给定x,关于θ\thetaθ的函数。右边是给定θ\thetaθ,x的概率密度函数。结合极大似然估计,这里似然函数实际上和该参数下取到已有样本x的概率相等。根据极大似然估计,某参数下,取到已有样本的概率越大,我们越认为这参数为真实的参数。所以似然函数意思是这个参数的真实度回顾一下极大似然估计,实际上是右边,arg⁡max⁡θf(x∣θ)\math
原创
发布博客 2022.06.06 ·
1082 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Dreaming to distill(Deep Inversion, data free distill)

文章链接:https://arxiv.org/abs/1912.08795CVPR2020上做data-free蒸馏的。什么是Data-free=》就是没有数据,只能自己生成数据一提到生成数据,就想到GAN:输入噪声,过GAN生成数据,数据过Teacher得到结果,求损失来训练GAN,使得GAN能生成和原数据集分布一致的数据,然后就可以去训student了。什么样的loss能使得GAN生成和原数据集分布一致的数据呢?经过观察发现:(图像先验)1、生成图的方差小2、生成图的L2范数小因.
原创
发布博客 2022.05.20 ·
334 阅读 ·
2 点赞 ·
1 评论 ·
0 收藏

DN-DETR

主要是引入了去噪(class、bbox重建)的辅助任务在Decoder部分,除了anchor的embedding,还加入了带噪声的bbox和class,比如gt_bbox是(x, y, h, w),加噪声可以有很多种方式,比如变成(x+Δx,y+Δy,h+Δh,w+Δw)(x+\Delta{x}, y+\Delta{y}, h+\Delta{h}, w+\Delta{w})(x+Δx,y+Δy,h+Δh,w+Δw),label加噪声的话就是随机变成别的class label,要求Decoder输出对
原创
发布博客 2022.05.16 ·
1194 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

DAB-DETR深入理解

文章链接:https://arxiv.org/abs/2201.12329最大的贡献是把DETR的Object Query定义为可学习的AnchorAnchor-based DETR来临了(还有点争议,说是Anchor-based,这Anchor又不是预定义的,说是Anchor-free,这Anchor也不是由image feature end-to-end预测来的)首先是一个实验,为啥DETR收敛这么慢?首先排除backbone的原因,因为是预训练好的,那就只能是Decoder的原因。其中.
原创
发布博客 2022.05.15 ·
5984 阅读 ·
20 点赞 ·
3 评论 ·
50 收藏

梯度下降法的原理

之前一直就只知道朝着负梯度的方向走就能降Loss,却不知道是为什么,今天看了人工智能的课才明白了。首先假设损失函数f(x)f(x)f(x),下一步xxx的移动方向与距离Δx\Delta{x}Δx,则有移动后的损失f(x+Δx)f(x+\Delta{x})f(x+Δx),我们来思考怎样能让损失降低,也就是使得f(x+Δx)<f(x)f(x+\Delta{x})<f(x)f(x+Δx)<f(x)首先对f(x+Δx)f(x+\Delta{x})f(x+Δx)泰勒展开:将f(x)f(x)f
原创
发布博客 2022.05.04 ·
522 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

矩阵乘法的计算复杂度

结论:A∗B=(i,m)∗(m,j)A*B=(i, m)*(m, j)A∗B=(i,m)∗(m,j)的计算复杂度为O(i∗j∗m)O(i*j*m)O(i∗j∗m)怎么来的:输出矩阵C为(i,j)(i, j)(i,j),遍历输出矩阵,C矩阵中的每个元素由A,B矩阵中对应的m对数字相乘相加而来,遍历m对数做相乘相加的复杂度为O(m)O(m)O(m),所以总共三轮循环,复杂度为O(i∗j∗m)O(i*j*m)O(i∗j∗m)实际实现:a = [[1, 2, 3], [4, 5, 6]]b
原创
发布博客 2022.05.01 ·
2718 阅读 ·
1 点赞 ·
0 评论 ·
4 收藏

MLP三部曲——其二:gMLP

gMLP论文链接:https://arxiv.org/pdf/2105.08050.pdf与其说是去掉了self-attn,不如说是另一种形式的self-attn我们先回一下self-attn是啥?在Transformer里面,Q*K后得到Attn矩阵,再乘上V,相当于将所有token混合,每个token都由所有token线性表出(突然感觉大学线代里学到的这个词用在这里十分合理),其中,线性表出的矩阵就是Attn矩阵。所以self-attn实际上就是attn矩阵*V,这个attn矩阵可以由Q*
原创
发布博客 2022.04.30 ·
2634 阅读 ·
0 点赞 ·
1 评论 ·
4 收藏

MLP三部曲(MLP-Mixer -> gMLP -> MAXIM)——其一

其一:MLP-Mixer参考一文教你彻底理解Google MLP-Mixer(附代码) - 月球上的人的文章 - 知乎https://zhuanlan.zhihu.com/p/372692759论文链接:https://arxiv.org/abs/2105.01601先看总体结构:乍一看和Vit特别像,先把图片分Patch,然后拉平过全连接变成Embedding。...
原创
发布博客 2022.04.30 ·
2851 阅读 ·
1 点赞 ·
0 评论 ·
11 收藏

CV中的LN与NLP中的BN

CV中的BN:(N, C, H, W),以(N, H, W)为单位求均值与方差CV中的LN:由于在LN初始化的时候需要输入参数normalized_shape,即规范化的单位(目的是为了给单位内部的所有element设置不同的gamma和beta,详情参见我的上一篇文章),因此如果按照图中的这种做法:normalized_shape=[C,H,W]eg.>>> # Image Example>>> N, C, H, W = 20, 5, 10, 10&g
原创
发布博客 2022.04.13 ·
981 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

LN与BN实现上的巨大差异

参考https://ugirc.blog.csdn.net/article/details/121877901做规范化的目的减均值,除方差,实际上就是压缩原数据的分布,使得均值为0,方差为1,差不多全集中在(-1,1)之间这样有几个好处:(1)如果激活函数是Sigmoid的话,如果值稍微大一点或者小一点都会变成-1或1,导致”饱和“,即很多值过激活函数后都变成了相同的值,规范化之后可以减轻这种”饱和“的情况。(2)使得每一层的特征分布都差不多,有利于收敛#待补充规范化公式都是一样的,减均.
原创
发布博客 2022.04.13 ·
320 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

EM算法原理

参考人人都懂EM算法 - August的文章 - 知乎https://zhuanlan.zhihu.com/p/36331115EM算法与极大似然估计已知:(1)一堆数据(2)数据的概率密度函数的形式未知:概率密度函数的参数eg. 高斯分布的均值和方差此时可以用极大似然估计求解概率密度函数的参数eg.似然函数=每个样本出现的概率的乘积为了方便计算一般会取一个对数转换成求和形式(称为对数似然函数):最大似然估计实际上就是求argmax似然函数,从而求得变量θ\thetaθ.
原创
发布博客 2022.04.08 ·
802 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏
加载更多