爱睡觉的Raki
码龄5年
关注
提问 私信
  • 博客:135,372
    动态:399
    135,771
    总访问量
  • 176
    原创
  • 655,896
    排名
  • 246
    粉丝

个人简介:我不能只做观众

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:上海市
  • 加入CSDN时间: 2020-01-25
博客简介:

Raki_J的博客

查看详细资料
个人成就
  • 获得96次点赞
  • 内容获得34次评论
  • 获得254次收藏
  • 代码片获得809次分享
创作历程
  • 16篇
    2023年
  • 82篇
    2022年
  • 27篇
    2021年
  • 51篇
    2020年
成就勋章
TA的专栏
  • NLP
    82篇
  • 读paper
    83篇
  • Python
    2篇
  • Continual Learning
    19篇
  • Multimodal
    6篇
  • PRML
    1篇
  • 统计学习方法
    8篇
  • Audio
    6篇
  • nlp-beginner
    6篇
  • 神经网络与深度学习
    6篇
  • Paper复现
    1篇
  • NLP面试
    2篇
  • Java
    1篇
  • 图论
    35篇
  • CodeForces
    21篇
  • 树上问题
    6篇
  • 网络流
    9篇
  • 多校
    3篇
  • 并查集
    2篇
  • 数据结构
    2篇
  • 连通性问题
    3篇
  • 强连通分量
    3篇
  • 差分约束
    1篇
  • 最小生成树
    2篇
  • LCA
    1篇
  • kuangbin
    5篇
兴趣领域 设置
  • 人工智能
    机器学习人工智能深度学习神经网络自然语言处理pytorch语言模型transformerbertnlp
  • 数学
    图论
  • AIGC
    stable diffusionchatgptgptllamaprompt
创作活动更多

AI大模型如何赋能电商行业,引领变革?

如何使用AI技术实现购物推荐、会员分类、商品定价等方面的创新应用?如何运用AI技术提高电商平台的销售效率和用户体验呢?欢迎分享您的看法

175人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
搜TA的内容
搜索 取消

Raki的读paper小记:GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints

图2展示了分组查询注意力和多头/多查询注意力的比较。适中数量的组导致插值模型的质量高于MQA,但比MHA更快,正如我们将展示的那样,这代表了一个有利的权衡。然而,更大的模型通常会按比例增加头的数量,使得多查询注意力在内存带宽和容量上都表现出更激进的削减。此外,较大的模型受到注意力的内存带宽开销相对较小,因为键值缓存随着模型维度的增加而增加,而模型的FLOPs和参数随模型维度的。此外,我们引入分组查询注意力,它是多查询注意力和多头注意力的插值,既能够在与多查询注意力相当的速度下实现接近多头注意力的质量。
原创
发布博客 2023.08.09 ·
716 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Raki的读paper小记:RWKV: Reinventing RNNs for the Transformer Era

AttnQKVt​∑i1T​eqt⊤​ki​∑i1T​eqt⊤​ki​vi​​AttnWKVt​∑i1t​ewti​ki​∑i1t​ewti​ki​vi​​wti​∈RT×T是学习到的位置偏移,矩阵中每个元素是一个标量。
原创
发布博客 2023.07.30 ·
1251 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Raki的读paper小记:SELF-INSTRUCT: Aligning Language Models with Self-Generated Instructions

用GPT3生成的instructions贡献:(1) 我们引入了SELF-INSTRUCT,一种使用最少人工标记数据诱导指令遵循能力的方法;(2) 我们通过广泛的指令调优实验证明了其有效性;(3) 我们发布了一个大规模的合成数据集,包含52,000个指令,以及一组手动编写的新任务,用于构建和评估未来的指令遵循模型。SELF-INSTRUCT是一种生成任务指令数据的方法,它使用预训练的普通语言模型自身来生成任务,经过过滤和调优,可以让模型更好地遵循指令。
原创
发布博客 2023.07.27 ·
530 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Raki的读paper小记:Retentive Network: A Successor to Transformer for Large Language Models

RetNet = linear attention + rope + 显式衰减(即 $\gamma$)
原创
发布博客 2023.07.24 ·
587 阅读 ·
3 点赞 ·
0 评论 ·
4 收藏

Raki的读paper小记:LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS

研究任务对大模型进行部分微调已有方法和相关工作现有技术通常通过扩展模型深度引入推理延迟(Houlsby 等人,2019;Rebuffi 等人,2017),或通过减少模型可用序列长度(Li 和 Liang,2021;Lester 等人,2021;Ham-bardzumyan 等人,2020;Liu 等人,2021)面临挑战这些方法通常无法达到微调基线,提出了效率与模型质量之间的权衡。创新思路学习过度参数化的模型实际上位于低内在维度上。
原创
发布博客 2023.07.23 ·
709 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

windows11安装pytorch2.0

换了新电脑,好久没用windows了,配置一下环境,顺便记录一下方便帮助AI小白不会浪费时间在装环境上(一星期不夸张hah)打开命令行,然后输入nvidia-smi,检查自己的显卡驱动也可以通过图形界面查看首先在找到我的电脑,右键点击选检查好了显卡之后,我们可以先安装pycharm下载完之后一路勾选无脑点就好了,这样我们就配置好了pycharm,这时候我们需要python解释器和环境管理工具。
原创
发布博客 2023.04.17 ·
828 阅读 ·
1 点赞 ·
1 评论 ·
4 收藏

思考AI科研的未来

今天不聊paper,来聊一些现实的问题,AI科研发展?
原创
发布博客 2023.04.06 ·
720 阅读 ·
1 点赞 ·
1 评论 ·
1 收藏

近几年NLP比较promising的方法

对比学习的想法是,把不同类别的样本在特征空间推开,而让相似的样本距离更近,从而获得更好的样本表示思想是构造正负样本对进行优化,在CV那边负样本非常容易构造,而NLP因为token的离散性并没有那么容易构造,而SimCSE发现仅仅使用dropout构造出的负样本就能达到很好的效果。
原创
发布博客 2023.03.23 ·
669 阅读 ·
2 点赞 ·
0 评论 ·
1 收藏

Raki的读paper小记:Forget-free Continual Learning with Winning Subnetworks

l1​WSN联合学习与每个任务相关联的子网络相关的模型权重和任务自适应二进制掩码,同时尝试通过重用之前子网络的权重来选择要激活的一小组权重(获胜票),每张中奖彩票产生的二进制掩码被编码为一个N位二进制数字掩码,然后使用霍夫曼编码进行压缩,以实现网络容量相对于任务数量的亚线性增长与图1a基于修剪的CL方法不同,该方法在预先训练的主干网络中获得特定于任务的子网络,我们。为了在模型学习新任务时允许前向转移,我们将学习到的,但有选择地,而不是使用所有权重(图1b),这可能会导致有偏的转移。
原创
发布博客 2023.03.05 ·
836 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Raki的读paper小记:Neuro-Inspired Stability-Plasticity Adaptation for Continual Learning in Sparse Nets

中增加相同数量的新连接,保持每层的密度,新的连接是随机选择的,只要它们不形成稳定单元的新输入,这保证了连接增长不会破坏稳定单元学习的表示。单元的总激活是否是其对学习任务的贡献的有效指标,观察到移除最活跃的单元比移除相同数量的随机选择单元更会降低性能。在两个任务之间的边界处,它将连接冻结到新的稳定单元中以稳定这些单元,即它不允许相应的权重在该点之后发生变化。在任务边界上,候选稳定单元被提升为稳定单元,稳定单元之间的连接被冻结,然后我们重新初始化剩余的连接。因此可塑单元的功能的未来变化不会传播到稳定单元。
原创
发布博客 2023.03.04 ·
287 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Raki的读paper小记录:Online Continual Learning through Mutual Information Maximization

batch CL每个task的数据可以训练任意个epoch,但是online CL每个任务的数据都是以流的形式逐渐出现的,只要积累了一小批训练样本,就可以进行学习inter-task CF指的是学到后面的任务忘了前面的任务intra-task CF指的是一个任务内,学到后面的batch忘掉了前面batch的知识因为online CL每个样本只看到一次,所以只有OCL才会intra-task CF。
原创
发布博客 2023.03.03 ·
511 阅读 ·
3 点赞 ·
0 评论 ·
5 收藏

Transformer及其子孙后代

attention is all you need,现在已经是money is all you need时代了(x首先介绍AtentionQKVsoftmaxdk​​QKT​Vq,k和v都是原输入x通过变换矩阵得到的q和k相乘得到系数矩阵,用softmax进行归一化,再乘v得到加权后的表示,这就是自注意力做的事情过程如图:模型图。
原创
发布博客 2023.03.01 ·
741 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

Raki的读paper小记:Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

当重用之前的state信息的时候,保持他们的位置信息也是非常重要的,如果依旧使用绝对位置编码,会出现两个segment用了同样的位置的情况,但实际上却差了一个segment的长度,这样会使模型无法区分他们的位置信息。最大可能的依赖是图b的面积下的点,与截断的BPTT不同的是,这里的方法缓存了一连串的隐状态,而不是最后一个,因此应该与相对位置编码技术一起应用。在训练过程中,为前一个片段计算的隐藏状态序列是固定的,并在模型处理下一个新片段时作为扩展上下文被重新使用。Transformer-XL的总公式。
原创
发布博客 2023.02.28 ·
245 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Raki的读paper小记:BART

在预训练阶段,encoder类似bert,decoder类似gpt,一个双向一个自回归在fine-tune阶段,未被破坏的文本被同时输入到encoder和decoder,用decoder的最后隐藏层作为表示这种设置的一个关键优势是去噪的灵活性;可以对原始文本进行任意的转换,包括改变其长度。
原创
发布博客 2023.02.28 ·
382 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Raki的读paper小记:ConTinTin: Continual Learning from Task Instructions

此工作提出了一个NLP持续学习新范式
原创
发布博客 2023.01.12 ·
537 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Raki的读paper小记:Continual Learning of Natural Language Processing Tasks: A Survey

来自UIC的2022最新NLP持续学习综述,第一次总结了各种任务范式
原创
发布博客 2023.01.06 ·
1438 阅读 ·
0 点赞 ·
1 评论 ·
3 收藏

Raki的读paper小记:An Image is Worth One Word Personalizing Text2Image using Textual Inversion

跟prompt非常类似,但是用了图片在特征空间的表示来学习。
原创
发布博客 2022.09.25 ·
2159 阅读 ·
0 点赞 ·
0 评论 ·
4 收藏

Raki的读paper小记:Image as a Foreign Language: BEIT Pretraining for All Vision and Vision-Language Tasks

在视觉任务上,可惜没看到NLP那边杀起来。
原创
发布博客 2022.09.02 ·
1474 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

Raki的读paper小记:CLIP:Learning Transferable Visual Models From Natural Language Supervision

然后,可以通过自然语言提示利用该任务学习,以实现对许多现有数据集的zero-shot。在足够的规模下,该方法的性能可以与任务特定的监督模型匹敌,尽管仍有很大的改进空间。算是小神作,实验巨大巨全,启发了后面多模态很多很多的工作,初步展现大模型在多模特领域的超强威力。我们发现,采用该范式会使计算机视觉领域出现类似行为,并讨论了这一研究领域的社会影响。我们研究了是否有可能将NLP中任务无关的网络规模预训练的成功转移到另一个领域。使用自然语言作为监督信号,把规模做大,并且不需要标注。
原创
发布博客 2022.09.02 ·
892 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Raki的读paper小记:ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

研究任务已有方法和相关工作面临挑战创新思路实验结论。
原创
发布博客 2022.09.02 ·
437 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多