自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(138)
  • 收藏
  • 关注

原创 Datawhale X 李宏毅苹果书 AI夏令营-深度学习入门班-task2

过拟合是指在训练数据上效果好,测试数据上效果差,对训练数据太拟合太贴切;欠拟合则相反,往往是模型太简单或者训练轮次不够。说到激活函数,最主要的作用是引入非线性,特别是在深度学习中,如果没有激活函数,多层神经网络始终可以用两层来代替。额,不知道为什么要在这里这样引入sigmoid函数,有点怪怪的,但确实用无限多的分段函数就能拟合很多曲线。一开始假设的模型是y=b+w1,但在可视化预测值和真实值后,发现数据具有规律性,因此换成7天。所以这里的意思是引入多变量去更好的拟合问题所需的模型?

2024-08-25 13:42:48 78

原创 Datawhale X 李宏毅苹果书 AI夏令营-深度学习入门班-task1

机器学习就是去拟合一种函数,它可能在高维上,十分抽象,但是却可以有丰富的语义含义,从而完成一系列任务回归任务是预测一个准确的值,例如拟合一条直线的时候,我们希望每一个点的值都能对应上分类任务则是输出一个带有概率含义的Logits,经过一些操作(如softmax)得到每个类别对应的概率除此之外模型还可以有结构化的输出,例如一张图、一篇文章。

2024-08-22 23:12:18 284

原创 2025ICASSP Author Guidelines

每篇论文应包含一段大约100至150字的摘要,出现在文档的开头。请使用与电子提交时的文本相同的内容,并提供作者联系信息。

2024-08-19 22:47:44 1069

原创 Speaker Tracking SOTA 文章翻译

在室内环境中跟踪多个移动说话者的问题受到了广泛关注。早期的技术完全基于单一模态,例如视觉。最近,多模态信息的融合已被证明在提高跟踪性能以及在像遮挡这样的具有挑战性情况下的鲁棒性方面发挥了重要作用(由于摄像机视野的限制或其他说话者造成的遮挡)。然而,数据融合算法常常受到传感器测量中的噪声干扰,这会导致不可忽视的检测错误。在这里,我们提出了一种结合音频和视觉数据的新方法。我们利用音频源的到达方向角来重塑传播步骤中粒子的典型高斯噪声分布,并在测量步骤中加权观测模型。

2024-07-22 19:10:13 261

原创 基于星火大模型的群聊对话分角色要素提取挑战赛

#Datawhale #AI夏令营

2024-07-06 18:14:21 624

原创 基于Hugging Face的NLP任务微调

这种处理方法是ok的,但缺点是处理之后tokenized_dataset不再是一个dataset格式,而是返回字典(带有我们的键:input_ids、attention_mask 和 token_type_ids,对应的键值对的值)。Trainer 第一个参数是TrainingArguments类,是一个与训练循环本身相关的参数的子集,包含 Trainer中用于训练和评估的所有超参数。为了使我们的数据保持dataset的格式,我们将使用更灵活的Dataset.map 方法。

2024-07-06 15:53:53 898

原创 ICASSP论文结构研究

目标任务现状、目前研究现状(研究大方向、研究的欠缺)、本文方法、方法效果(排名、分数)有一个Index Terms目标任务的介绍,以前的工作的侧重点,本文提出的方法及其作用,方法的效果有Index Terms。

2024-06-25 21:36:55 396

原创 LLm与微调入门

图层的输出类别。数据集2 -

2024-06-23 02:15:27 374

原创 「酷文」小说创作大模型挑战赛baseline精读

这一步骤将 LoRA 的适配效果直接应用到基础模型的权重上,使得基础模型本身已经包含了通过 LoRA 微调得到的所有信息。卸载配置(Unload Configuration):在合并权重之后,LoRA 的配置和相关的低秩矩阵不再需要。部分的层,不同的模型对应的层的名字不同,可以传入数组,也可以字符串,也可以正则表达式。解码生成的文本,将生成的token转换回人类可读的文本,跳过特殊token。部分)的损失,而不关心输入部分的损失。:需要训练的模型层的名字,主要就是。去除输入部分,只保留生成的输出。

2024-06-21 02:32:33 933

原创 工业AIoT竞赛流程

这里的*根据上一个命令的结果来填写,后面这个VC...是master01虚拟机的密码。# ./install_openyurt_manager_v5.sh是搜索到的脚本文件。先按i,光标移动到这一行,按shift+#注释掉,按esc,按 : ,输入wq,按回车。# 下面两行是一条命令,csdn自动换行了。# 查看所有 pods 状态。启动edge01的虚拟机。# 实时查看安装日志更新。# 每一大段都全部复制。

2024-06-20 23:08:27 632

原创 论文阅读--Cross-view Transformers for real-time Map-view Semantic Segmentation

因为不知道实际的深度值,所以存在scale上的不确定性。与LSS不同,在这篇文章中并没有显式使用深度信息或者是隐式编码深度空间分布,而是将scale上的不确定性编码使用上述提到的camera-view embedding、map-view embedding和transformer网络进行学习和适应。整体上文章的网络前端使用CNN作为特征抽取网络,中端使用CNN多级特征作为输入在多视图下优化BEV特征(也就是使用了级联优化),后端使用CNN形式的解码器进行输出。v:原多视图特征也会经过线型映射。

2024-06-20 14:37:48 280 1

原创 LNWT--篇章三小测

既在一定程度保留了词的含义,又能够照顾到英文中单复数、时态导致的词表爆炸和未登录词的 OOV(Out-Of-Vocabulary)问题,将词根与时态词缀等分割出来,从而减小词表,也降低了训练难度。例如,单词 "playing" 可以被分解成 ["play", "##ing"],其中 "##" 表示这个子词不是一个独立的词,而是一个前一个词的继续。在训练初期使用较小的学习率(从 0 开始),在一定步数(比如 1000 步)内逐渐提高到正常大小(比如上面的 2e-5),避免模型过早进入局部最优而过拟合;

2024-06-09 10:10:59 344

原创 Develop an application using LangChain

创建一个长字符串schedule = "在八点你和你的产品团队有一个会议。你需要做一个PPT。上午9点到12点你需要忙于LangChain。Langchain是一个有用的工具,因此你的项目进展的非常快。中午,在意大利餐厅与一位开车来的顾客共进午餐 \走了一个多小时的路程与你见面,只为了解最新的 AI。确保你带了笔记本电脑可以展示最新的 LLM 样例."memory.save_context({"input": "你好,我叫皮皮鲁"}, {"output": "你好啊,我叫鲁西西"})

2024-06-08 00:43:35 248

原创 大模型应用评估方法

借助 LLM 构建应用程序后,我们应如何确知其运行状况呢?更甚者,当我们将其部署并让用户开始使用之后,我们又该如何追踪其表现,发现可能存在的问题,并持续优化它的回答质量呢?因此,在使用LLM构建应用程序时,你可能会经历以下流程:首先,你会在一到三个样本的小样本中调整 Prompt ,尝试使其在这些样本上起效。随后,当你对系统进行进一步测试时,可能会遇到一些棘手的例子,这些例子无法通过 Prompt 或者算法解决。这就是使用 ChatGPT API 构建应用程序的开发者所面临的挑战。

2024-06-06 23:25:05 262

原创 Building Systems with the ChatGPT API

对于一个句子,语言模型会先使用分词器将其拆分为一个个 token ,而不是原始的单词。对于生僻词,可能会拆分为多个 token。这样可以大幅降低字典规模,提高模型训练和推断的效率。例如,对于 "Learning new things is fun!" 这句话,每个单词都被转换为一个 token ,而对于较少使用的单词,如 "Prompting as powerful developer tool",单词 "prompting" 会被拆分为三个 token,即"prom"、"pt"和"ing"。

2024-06-06 15:54:15 947

原创 Prompt Engineering

和。在许多情况下,的 Prompt 反而会让语言模型更容易抓住关键点。

2024-06-04 14:07:20 1045 1

原创 论文精读--Swin Transformer

本文提出了一种新的视觉Transformer,称为Swin Transformer,可以作为通用的计算机视觉主干网络。从语言到视觉领域中,适应Transformer面临的挑战主要源自两个领域之间的差异,例如视觉实体的尺度变化较大,以及图像像素的高分辨率相对于文本中的单词。为了应对这些差异,我们提出了一种分层Transformer,其表示通过Shifted窗口计算。Shifted窗口方案通过将自注意力计算限制在不重叠的局部窗口内,同时允许跨窗口连接,从而提高了效率。

2024-06-03 18:04:15 671

原创 论文阅读--ActionCLIP

(2)CLIP的ground truth来自于文本-图像对,几乎是独立的,所以只有对角线上是正样本。但这里的text是动作标签,当batch比较大的时候,同一行或一列会出现多个正样本,这时不再是一个one-hot的问题,所以把cross entropy换成KL divergence。(d)shift是在特征图上做各种各样的移动,达到更强的建模能力,但又不增加计算量。视频领域需要时序上的改变,19年tsm的论文正式将shift应用到视频,从此大火。(b)对文本做前缀、完型、后缀的prompt。

2024-05-26 09:48:36 265

原创 论文阅读--CLIP4Clip

CLIP做视频的迁移问题在于,一般视频的处理方式是对多个帧做patch,因此得到的图像特征应该是多个帧的融合特征,但CLIP是一个文本特征对应一个图像特征,这时候该如何进行相似度计算?第三章方法:不在最后融合特征,而是将文本与视频帧丢入同一个transformer,类似于把文本特征当成cls token,最后把融合了视频与文本的特征去做相似度计算。第一种方法:直接取平均。缺点是没有考虑到时序的特性,例如两段视频,一段是人慢慢坐下,一段是人慢慢起身,直接取平均的话这两段视频的语义是一样的。

2024-05-26 09:26:59 271

原创 论文阅读--CLIPasso

做了几个实验后发现初始化位置很重要,作者提出saliency的方式:把图片扔进训练好的ViT,把最后一层的多头自注意力取一个加权平均,做成一个saliency map,然后看哪个区域更显著,到显著的区域上去采点。像ViLD一样,在这里的ground truth是CLIP模型蒸馏,无论是原图还是简笔画,如果它们描述的是同一物体,那么最后得到的特征应该是差不多的,也就是Ls语义损失。以往的工作是找了素描的数据集,而且抽象程度不够高,笔画是固定好的,素描对象的种类不多,使得最后模型的效果十分受限。

2024-05-25 19:51:17 373

原创 LNWT--篇章二小测

数据并行是将同一模型的多个副本分配到不同的GPU上,每个GPU处理不同的数据子集。梯度在所有GPU上计算并汇总,然后更新所有模型副本的权重。从输入序列中随机选择一定比例的单词,并用特殊的mask标记(通常是𝑀𝐴𝑆𝐾)替换它们。缓解梯度消失和梯度爆炸问题,实现更深层次的网络结构,保证了模型在训练过程中不会因为某些层的参数初始化不当而丢失重要的信息。对于BERT模型,可以将不同的层分配到不同的GPU上。混合精度训练通过使用半精度(FP16)和单精度(FP32)混合的方式进行训练,可以减少显存使用和加速计算。

2024-05-25 14:34:53 1068

原创 论文阅读--GLIP

目标检测的loss是分类loss+定位loss,它与phrase ground的定位loss差不多,但是二者分类loss不同,因为对于目标检测,它的标签是一个或者两个单词,是one-hot标签,但是对于vision grounding它的标签是一个句子。把detection和phrase ground(对于给定的sentence,要定位其中提到的全部物体)这两个任务合起来变成统一框架,从而扩展数据来源,因为文本图像对的数据还是很好收集的。

2024-05-24 16:34:00 299

原创 论文阅读--ViLD

(b)ViLD的text部分:利用CLIP处理文本的方法(冻结)得到文本特征,其中文本的标签是基础类也就是base categories,最后图像特征和文本特征点乘算相似度当作logits,back ground是背景类,有专门的网络进行embedding。现在的目标检测数据集,标注的类别都很有限,如图中的base categories,只能检测出toy而不能检测出细分类别,能不能在现有数据集的基础上,不额外打标注,就能直接检测细分物体?

2024-05-24 16:14:21 332

原创 论文阅读--GroupViT

右边是grouping block,左边的两个层之间的小东西表示可学习的group tokens,目的是想要模型在初始学习的时候能慢慢的把相邻的像素点group起来,变成一个又一个的segmentation mask。token、group merging得到的是一个序列,第一维是聚类中心个数,第二位是深度,为了把序列的特征融合成整个图像的特征,使用平均池化,然后对比学习。聚类中心个数是超参数,需要人工设定,作者实验发现8个的效果最好,此时分割最多检测到8类。由图可知,group token确实起了作用。

2024-05-24 15:43:26 319

原创 论文阅读--Language-driven Semantic Segmentation

image encoder使用DPT分割模型,大致架构为ViT+decoder,decoder的作用是把bottleneck feature慢慢upscale上去,得到特征图。将最后的矩阵去和ground truth mask去做交叉熵,而不是像CLIP一样做对比学习的loss,因此它不是一个无监督学习的工作,是有监督的。效果很好,文本增加一个词,就能找到对应的分割地方,给出的无用标签也不会去错误分割,而且能理解文本意思,例如dog和pet都能把狗给分割出来。文本和图片的特征图的C一般为512或768。

2024-05-24 15:09:57 131

原创 论文精读--InstructGPT

增大语言模型的规模并不一定能使其更好地遵循用户的意图。例如,大型语言模型可能生成不真实、有毒或对用户毫无帮助的输出。换句话说,这些模型与用户并不一致。在这篇论文中,我们展示了一种通过使用人类反馈进行微调的方式来使语言模型与用户意图保持一致的方法,这适用于广泛的任务。从标注者编写的提示和通过 OpenAI API 提交的提示开始,我们收集了标注者展示所需模型行为的演示数据集,并使用这些数据集通过监督学习来微调 GPT-3。

2024-05-23 19:35:01 958

原创 论文阅读--HCSCL

直接融合数据的不同模态,会忽略它们之间的潜在相关性和内部结构的异质性。

2024-05-18 14:59:45 759

原创 论文阅读--Distilling Audio-Visual Knowledge by Compositional Contrastive Learning

将语义不相关的跨模态信息通过对比学习组合起来。

2024-05-17 14:37:03 637

原创 论文阅读--Knowledge distillation via softmax regression representation learning

这篇论文解决了通过知识蒸馏进行模型压缩的问题。我们主张一种优化学生网络倒数第二层输出特征的方法,因此与表示学习直接相关。为此,我们首先提出了一种直接特征匹配方法,重点优化学生网络的倒数第二层。其次,更重要的是,因为特征匹配没有考虑到手头的分类问题,我们提出了第二种方法,将表示学习和分类解耦,并利用教师的预训练分类器来训练学生的倒数第二层特征。特别是,对于相同的输入图像,我们希望通过教师的分类器传递时,教师和学生的特征产生相同的输出,这通过简单的 L2 损失实现。

2024-04-29 23:20:42 1391

原创 论文阅读--Training data-efficient image transformers & distillation through attention

教师的预测和真实标签重要性一样。

2024-04-29 21:42:09 479

原创 论文阅读--Search to Distill

标准的知识蒸馏(KD)方法将笨重的教师模型的知识蒸馏到具有预定义架构的学生模型的参数中。然而,神经网络的知识,即网络在给定输入条件下的输出分布,不仅取决于其参数,还取决于其架构。因此,对于KD的一种更广义的方法是将教师的知识蒸馏到学生的参数和架构中。为了实现这一点,我们提出了一种新的基于架构的知识蒸馏(AKD)方法,该方法找到最适合蒸馏给定教师模型的学生模型(对于教师来说是珍珠)。具体来说,我们利用带有我们的KD引导奖励的神经架构搜索(NAS)来搜索最适合给定教师模型的学生架构。

2024-04-28 23:34:34 1103

原创 论文阅读--A Comprehensive Overhaul of Feature Distillation Heo

第一个是经过ReLU激活之后的特征响应的大小第二个是每个神经元的激活状态。提出了一个margin ReLU激活函数,并且利用一个局部的L2正则化进行距离度量,以此来跳过对非必要信息的蒸馏。

2024-04-28 17:10:38 983

原创 蝴蝶书--ChatGPT使用指南——相似度匹配

文本token化后需要一种方式来表示这些token,one-hot方法太生硬了,需要一个稠密表示通过调用大模型的embedding API进行处理,在本人用过的里面,gpt支持传输多段文字,而ZHIPUAI一次只能传一个在自然语言处理领域,我们一般使用直接喂给大模型。

2024-04-25 20:34:24 382

原创 蝴蝶书--ChatGPT基础科普

非书中全部内容,仅记录

2024-04-23 13:36:23 659

原创 葡萄书--图注意力网络

在异质图中会有非常复杂的节点之间的联系,但是这种联系并不全是有效的,所以通过定义元路径来定义一些有意义的连接方式节点 i 在通过元路径生成的图中的邻居就是依据元路径定义的邻居如图元路径可定义为MAM和MDM,便得到了依据元路径定义的邻居d。

2024-04-20 10:18:36 838

原创 论文精读--KDGAN

GAN训练太慢,所以向分类器引入KD方法,降低梯度的方差,加快训练相较于传统KD,GAN使得分类器能学到真实的数据分布为了加快KDGAN的训练,作者一方面经验性地认为分类器接收到的梯度中来自teacher的梯度的方差会小于discriminator的梯度的方差,因此加权平均后小于原来只用GAN训练的梯度方差,从而能够快速收敛。另一方面,由于分类器和teacher生成的离散样本是不可微的,因此作者使用Gumbel-Max技巧将离散样本的分布转化为连续的分布。从而能够传递梯度值。

2024-04-19 21:15:42 760

原创 论文精读--A Gift from Knowledge Distillation

利用内积捕获层与层之间的关系。

2024-04-19 19:18:57 692

原创 论文精读--Learning Efficient Object Detection Models with Knowledge Distillation

尽管基于卷积神经网络(CNN)的目标检测器在准确性方面取得了显著的提高,但它们往往需要禁止的运行时间来处理图像以用于实时应用。最先进的模型通常使用非常深层的网络和大量的浮点运算。诸如模型压缩之类的工作学习具有更少参数的紧凑模型,但准确性大大降低。在本工作中,我们提出了一种新的框架,使用知识蒸馏和提示学习来学习紧凑且快速的目标检测网络,并改善准确性。尽管知识蒸馏在简单分类设置中表现出了出色的改进,但检测的复杂性提出了新的挑战,例如回归、区域提议和较少数量的标签。

2024-04-19 17:43:58 1321 1

原创 葡萄书--关系图卷积神经网络

同质图指的是图中的节点类型和关系类型都仅有一种异质图是指图中的节点类型或关系类型多于一种。

2024-04-19 15:14:16 279

原创 论文精读--Pay More Attention To Attention

这里的attention不是transformer那个,作者的attention是指attention map展示了哪些输入对输出的影响更大,理所当然feature map里值大的对输出影响大,所以这个就是模型对这块输入位置的attention。

2024-04-18 20:54:27 877

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除