__如果-CSDN博客

原创深度学习复习笔记

其中d代表两个样本特征的欧氏距离，y为两个样本是否匹配的标签，y=1代表两个样本相似或者匹配，y=0则代表不匹配。margin为设定的阈值，这种损失函数主要是用在降维中，即本来相似的样本，在经过降维（特征提取）后，在特征空间中，两个样本仍旧相似；而原本不相似的样本，在经过降维后，在特征空间中，两个样本仍旧不相似。CondenseNet的剪枝并不是直接将这个特征删除，而是通过掩码的形式将被剪枝的特征置0，因此在训练的过程中CondenseNet的时间并没有减少，反而会需要更多的显存用来保存掩码。

2025-05-30 17:31:43 473

原创 SAM1&2

也有MLP和linear classifier分类分割区域。解决混淆的输入：对于一个prompt，模型会输出3个mask，实际上也可以输出更多的分割结果，3个可以看作一个物体的整体、部分、子部分，基本能满足大多数情况。使用IOU的方式，排序mask。在反向传播时，参与计算的只有loss最小的mask相关的参数。point和box可以作为一类使用position encodings, text可以使用CLIP作为encoder, 而mask是一种密集型的prompt，可以使用卷积作为encoder。

2025-04-24 17:55:17 402

原创 3d物体检测

Cube R-CNN采用IoUness，即预测候选区域与真实目标框的2D IoU值，适用于数据标注不完备的情况。输出13个参数，包括：图像平面中心(u,v)、深度z、尺寸(w,h,l)、6D旋转姿态p、3D不确定性μ；：基于Plain DETR构建的单尺度Transformer检测器，生成2D框基础上扩展到3D框。直接从RGB(-D)输入中预测3D框，而不需要将输入提升到3D空间。深度输入为仿射不变深度，结合相机内参反投影为实际3D框。在每个2D检测框的基础上，预测对应的3D立方体；

2025-04-19 13:43:27 473

原创论文阅读--Orient Anything

通过渲染3D模型来学习不同方向下物体的外观，并从单张和自由视角的图像中估计物体方向。

2025-04-18 23:56:18 623

原创 2d深度预测

1 用合成图像替代所有标注的真实图像：真实图像中的标签存在粗略的情况；虽然合成图像可以提供高质量的深度标签，但它们与真实世界的图像之间存在分布上的差异。二是引入了大规模未标记的真实图像，并利用强大的教师模型为这些图像生成伪标签，以作为学生模型训练的数据来源。可能的原因：语义分割的label是离散的整数，值的含义表示的是整数的类别。深度估计的结果是连续的，值的含义表示的是像素点的深度回归值。3 通过已有标签的数据和第2步中生成的伪标签数据，加上图片扰动（图片增强），来训练另一个MDE模型（称之为S模型）

2025-04-18 22:14:52 416

原创 2D物体检测学习

得到预测结果以后，将object predictions和ground truth box之间通过匈牙利算法进行二分匹配：假如有K个目标，那么100个object predictions中就会有K个能够匹配到这K个ground truth，其他的都会和“no object”匹配成功，使其在理论上每个object query都有唯一匹配的目标，不会存在重叠，所以DETR不需要nms进行后处理。2.此前的检测器大都先用手工设计的候选框预测方案，例如anchor或滑动框。，两个模态特征乘起来求最大的前Nq个。

2025-04-18 18:31:18 391

原创论文阅读--LlaVA

LLaVA 的模型结构很简单，使用预训练的 Visual Encoder（CLIP ViT-L/14）和 LLM （LLaMA），为了做 Alignment，用一个简单的线性层 Projector 将视觉特征转换为文本特征。以图像描述为例：由图像Xv，图像的标题Xc组成的二元组可以对应一系列问题Xq（由GPT-4生成）来指示模型生成简单的描述。前面两种类型更多的是描述图片中存在的信息，而该问题需要在前两步的基础上遵循严格的逻辑，推理出一些信息出来。对于每个问题，从列表中抽取一个询问。模型的投影层和LLM。

2025-02-08 17:41:45 762

原创 DPO&PPO

DPO（Direct Preference Optimization）通过利用奖励函数与最优策略之间的映射关系，证明这个受限的奖励最大化问题可以通过单阶段的策略训练来精确优化，本质上是在人类偏好数据上解决一个分类问题。Reference Model：参考模型，它的作用是在RLHF阶段给语言模型增加一些“约束”，防止语言模型训歪（朝不受控制的方向更新，效果可能越来越差）由于DPO的优化目标是最大化对比学习中的偏好数据的对数似然，因此在优化过程中，Reward Model：奖励模型，它的作用是计算即时收益。

2025-02-08 01:05:11 409

原创 Deepseek v3&R1 学习笔记

为了解决低精度可能带来的收敛问题，团队设计了细粒度的量化方案，将 Activation 按 1*128 Tile 分组，Weight 按 128*128 block 分组，并通过提高累积精度来保证训练的稳定性。不同于Mixtral中大专家的设计（将稠密模型中的MLP结构复制8份），DeepSeek-V3采用大量“小专家”的设计，能够显著提升模型的稀疏程度。相比V2的236B总参数（21B激活参数），V3更加激进地引入256个专家，总参数量达到惊人的671B，而激活参数量仅仅增加到37B。

2025-02-05 17:29:43 521

原创 2024 ICLR Spotlight Learning-Feedback

提出了一种新的前向学习目标，即通过自适应标签嵌入的对比学习，以增强局部特征与标签嵌入之间的相似性。试图解决的主要问题是深度学习中反向传播算法面临的两个主要挑战：计算效率低下和生物学上的不可行。试图解决的问题是机器学习模型中的机器遗忘问题。关注模型中的特定权重而不是整个模型。

2025-01-30 14:08:08 462

原创 2024 CVPR Highlight Learning-Feedback

通过多尺度整体融合分支提取事件和图像的结构和纹理信息，并引入信噪比（Signal-to-Noise Ratio, SNR）引导的区域特征选择，以增强低SNR区域的图像。定义整个场景的分层神经表示、使用分层可微体积渲染从视频中学习该表示(为场景中的每个人定义一个3D形状和外观的隐式神经表示，这些表示在场景中是分层和交织的)引入新的可学习修饰符与类别绑定以捕获多个概念的属性，并通过分离和加强不同类别的注意力图来减少概念间的相互影响。试图解决的主要问题是如何学习一个通用的3D表示，以便于实现可扩展的视图合成。

2025-01-30 00:01:33 889

原创 2024 NIPS Spotlight Learning-Feedback

试图解决的问题是如何在视觉-语言模型中有效地利用转导学习来提升模型在零样本和少样本学习任务中的性能，特别是在考虑到文本信息的情况下。提出了一种新的视角，将单个神经网络解释为许多专家的集成，这允许在不引入任何内存开销的情况下跟踪专家的后验分布。论文的核心问题是：对于给定的博弈和初始策略配置，是否总是可以构建一条满足条件的路径，使其终止于博弈的均衡状态？试图解决的问题是如何在大型语言模型的训练过程中动态选择高质量的数据批次，以提高训练的收敛速度和泛化性能。

2025-01-29 22:44:20 636

原创论文阅读--Qwen2&2.5技术报告

后训练数据主要由两部分组成：对齐数据 D = { ( x i , y i ) } 和偏好数据 P = { ( x i , y i + , y i − ) } ，其中 x i 代表指令，y i代表满意的响应，y i +和 y i − 是对 x i 的两种响应，y i + 是比 y i − 更受偏好的选择。不同地，我们的模型采用了细粒度专家，创建了规模更小的专家，同时激活了更多的专家。与之前的Qwen模型类似，高质量的多任务指令数据被整合到Qwen2的预训练过程中，以增强上下文学习和指令跟随能力。

2025-01-20 17:17:18 1169

原创 2024 ICLR Poster Learning-Feedback

旨在解决强化学习（RL）中的现实差距（realitygap）问题。现实差距指的是在模拟环境中训练的策略在现实世界中表现不佳的现象。

2025-01-14 20:25:10 1014

原创 2024 CVPR Accep Learning-Feedback

图像包含大量冗余信息，这使得从图像中高效学习表示变得具有挑战性，提出了一种在视觉-语言对比学习过程中对图像块进行聚类掩蔽的策略：在训练过程中，随机选择图像块作为聚类中心，并计算所有块之间的成对距离，形成聚类。在距离阈值内的所有块被视为一个聚类，并被整体掩蔽。：通过使用图像块的原始RGB值作为特征表示来进行聚类，这种方法简单且避免了额外的计算复杂性。：为了提高聚类形成的准确性，引入了一个自适应层来细化距离矩阵。：为了确保批量输入的一致性，论文提出了一个最小掩蔽比例阈值，以保证不同图像的掩蔽比例一致。

2025-01-14 17:21:38 862

原创 2024 NIPS Poster Learning-Feedback

解决的主要问题是3D对象检测中的点云处理难题：直接从点云中进行3D对象检测是一项挑战，因为点云数据通常是不规则的、稀疏的，并且没有固定的顺序。：基于Transformer的架构虽然在3D对象检测中取得了成功，但是其注意力机制的二次复杂度难以在点云分辨率增加时编码丰富的信息。：尽管状态空间模型（如Mamba）因其线性复杂度和长序列建模能力而在自然语言处理中表现出色，但它们在3D场景理解中的应用尚未被充分探索。：首先对输入点云进行最远点采样（FPS）和K近邻（KNN）采样，形成多个局部块。

2025-01-14 16:28:55 717

原创 Agent学习

AI Agent=大模型+记忆+规划+工具使用两种思维方式：CoT和ReAct，都可以通过 Prompt 的设计来控制。

2025-01-14 02:09:31 622

原创 CSP练习笔记

创建两个数组dx和dy，存储对应d的x，y值变化，避免一堆if。

2025-01-13 22:04:28 221

原创 wow-agent 学习笔记

wow-agent

2025-01-12 22:26:43 530

原创 Java Web开发

B/S模式：客户端/服务端模式无连接：每次请求一次，释放一次连接；keep-alive表示支持长链接无状态：不支持记忆能力。解决无状态的方法：cookie和session。

2024-11-25 18:35:33 444

原创论文精读--The Llama 3 Herd of Models

主要卖点：1.Dense架构，与其他模型的MOE架构不同2.先训练出文本的能力后，加一些图像、视频等能力，偏保守的方案，因为加其他模态以后训练难收敛。

2024-11-24 19:08:28 1363

原创书生大模型实战营（第四期）——入门岛

result的值为'```json\n{\n "model_name": "书生浦语InternLM2.5",\n "developer": "上海人工智能实验室",\n "parameter_versions": ["1.8B", "7B", "20B"],\n "max_context_length": "1M"\n}\n```'遍历字符串拿到字符数量，再减完就行。创建python文件。

2024-11-03 16:29:37 313

原创计网课后题重点

2.试简述分组交换的要点。采用了存储转发技术。把报文(要发送的整块数据数据)等分成若干数据段，每个数据段加入控制信息组成的首部(header)，构成若干分组。因为分组首部包含了目的地址和原地址等重要控制信息，每个分组才可以在互联网中独立地选择传输路径。分组交换在传送数据之前不必先占用一条端到端的通信资源，分组到达一个路由器之后先存储，查找转发表、后转发，省去建立和释放连接的开销，因此效率更高。12.因特网的两大组成部分(边缘部分与核心部分)的特点是什么?它们的工作方式各有什么特点?

2024-10-30 13:39:47 826

原创大数据处理随堂测试

HDFSMapReduceHBaseSpark

2024-10-25 13:38:46 448

原创 CV方法再学习

MobileNetV1之所以轻量，与深度可分离卷积的关系密不可分主要是两种卷积变体组合使用，分别为。逐通道卷积的一个卷积核只有一个通道，输入信息的一个通道只被一个卷积核卷积，这个过程产生的feature map通道数和输入的通道数完全一样逐通道卷积虽然减少了计算量，但是这种每个通道独立的卷积运算失去了通道维度上的信息交互。因此需要Pointwise Convolution来将这些Feature maps进行组合生成新的Feature maps。

2024-10-10 09:57:53 1043

原创 Quantify LLM

大模型如果用bfloat16需要特别大的显存，所以都在用INT4、INT8做量化，效果不错。

2024-10-06 17:56:52 1046

原创 PEFT学习

监督式微调基于人类反馈的强化学习微调基于AI反馈的强化学习微调。

2024-10-03 20:31:14 874

原创论文精读--Two-Stream Convolutional Networks for Action Recognition in Videos

我们研究了用于视频动作识别的判别性训练深度卷积网络（ConvNets）的架构。挑战在于捕捉静态帧的外观信息和帧间运动信息的互补性。我们还旨在将表现最佳的手工设计特征推广到数据驱动的学习框架中。我们的贡献有三个方面。首先，我们提出了一个双流ConvNet架构，它结合了空间和时间网络。其次，我们证明了一个在多帧密集光流上训练的ConvNet能够取得非常好的性能，尽管训练数据有限。最后，我们展示了多任务学习，应用于两个不同的动作分类数据集，可以用来增加训练数据量，并提高两者的性能。

2024-09-30 18:16:23 1212

原创 Datawhale X 李宏毅苹果书 AI夏令营-深度学习入门班-task2

过拟合是指在训练数据上效果好，测试数据上效果差，对训练数据太拟合太贴切；欠拟合则相反，往往是模型太简单或者训练轮次不够。说到激活函数，最主要的作用是引入非线性，特别是在深度学习中，如果没有激活函数，多层神经网络始终可以用两层来代替。额，不知道为什么要在这里这样引入sigmoid函数，有点怪怪的，但确实用无限多的分段函数就能拟合很多曲线。一开始假设的模型是y=b+w1，但在可视化预测值和真实值后，发现数据具有规律性，因此换成7天。所以这里的意思是引入多变量去更好的拟合问题所需的模型？

2024-08-25 13:42:48 263 1

原创 Datawhale X 李宏毅苹果书 AI夏令营-深度学习入门班-task1

机器学习就是去拟合一种函数，它可能在高维上，十分抽象，但是却可以有丰富的语义含义，从而完成一系列任务回归任务是预测一个准确的值，例如拟合一条直线的时候，我们希望每一个点的值都能对应上分类任务则是输出一个带有概率含义的Logits，经过一些操作(如softmax)得到每个类别对应的概率除此之外模型还可以有结构化的输出，例如一张图、一篇文章。

2024-08-22 23:12:18 429

原创 2025ICASSP Author Guidelines

每篇论文应包含一段大约100至150字的摘要，出现在文档的开头。请使用与电子提交时的文本相同的内容，并提供作者联系信息。

2024-08-19 22:47:44 9912 6

原创 Speaker Tracking SOTA 文章翻译

在室内环境中跟踪多个移动说话者的问题受到了广泛关注。早期的技术完全基于单一模态，例如视觉。最近，多模态信息的融合已被证明在提高跟踪性能以及在像遮挡这样的具有挑战性情况下的鲁棒性方面发挥了重要作用（由于摄像机视野的限制或其他说话者造成的遮挡）。然而，数据融合算法常常受到传感器测量中的噪声干扰，这会导致不可忽视的检测错误。在这里，我们提出了一种结合音频和视觉数据的新方法。我们利用音频源的到达方向角来重塑传播步骤中粒子的典型高斯噪声分布，并在测量步骤中加权观测模型。

2024-07-22 19:10:13 365

原创基于星火大模型的群聊对话分角色要素提取挑战赛

#Datawhale #AI夏令营

2024-07-06 18:14:21 791

原创基于Hugging Face的NLP任务微调

这种处理方法是ok的，但缺点是处理之后tokenized_dataset不再是一个dataset格式，而是返回字典（带有我们的键:input_ids、attention_mask 和 token_type_ids，对应的键值对的值）。Trainer 第一个参数是TrainingArguments类，是一个与训练循环本身相关的参数的子集，包含 Trainer中用于训练和评估的所有超参数。为了使我们的数据保持dataset的格式，我们将使用更灵活的Dataset.map 方法。

2024-07-06 15:53:53 1054

原创 ICASSP论文结构研究

目标任务现状、目前研究现状(研究大方向、研究的欠缺)、本文方法、方法效果(排名、分数)有一个Index Terms目标任务的介绍，以前的工作的侧重点，本文提出的方法及其作用，方法的效果有Index Terms。

2024-06-25 21:36:55 561

原创 LLm与微调入门

图层的输出类别。数据集2 -

2024-06-23 02:15:27 456

原创「酷文」小说创作大模型挑战赛baseline精读

这一步骤将 LoRA 的适配效果直接应用到基础模型的权重上，使得基础模型本身已经包含了通过 LoRA 微调得到的所有信息。卸载配置（Unload Configuration）：在合并权重之后，LoRA 的配置和相关的低秩矩阵不再需要。部分的层，不同的模型对应的层的名字不同，可以传入数组，也可以字符串，也可以正则表达式。解码生成的文本，将生成的token转换回人类可读的文本，跳过特殊token。部分）的损失，而不关心输入部分的损失。：需要训练的模型层的名字，主要就是。去除输入部分，只保留生成的输出。

2024-06-21 02:32:33 1133

原创工业AIoT竞赛流程

这里的*根据上一个命令的结果来填写，后面这个VC...是master01虚拟机的密码。# ./install_openyurt_manager_v5.sh是搜索到的脚本文件。先按i，光标移动到这一行，按shift+#注释掉，按esc，按 : ，输入wq，按回车。# 下面两行是一条命令，csdn自动换行了。# 查看所有 pods 状态。启动edge01的虚拟机。# 实时查看安装日志更新。# 每一大段都全部复制。

2024-06-20 23:08:27 686 1

原创论文阅读--Cross-view Transformers for real-time Map-view Semantic Segmentation

因为不知道实际的深度值，所以存在scale上的不确定性。与LSS不同，在这篇文章中并没有显式使用深度信息或者是隐式编码深度空间分布，而是将scale上的不确定性编码使用上述提到的camera-view embedding、map-view embedding和transformer网络进行学习和适应。整体上文章的网络前端使用CNN作为特征抽取网络，中端使用CNN多级特征作为输入在多视图下优化BEV特征（也就是使用了级联优化），后端使用CNN形式的解码器进行输出。v：原多视图特征也会经过线型映射。

2024-06-20 14:37:48 403 1

原创 LNWT--篇章三小测

既在一定程度保留了词的含义，又能够照顾到英文中单复数、时态导致的词表爆炸和未登录词的 OOV（Out-Of-Vocabulary）问题，将词根与时态词缀等分割出来，从而减小词表，也降低了训练难度。例如，单词 "playing" 可以被分解成 ["play", "##ing"]，其中 "##" 表示这个子词不是一个独立的词，而是一个前一个词的继续。在训练初期使用较小的学习率（从 0 开始），在一定步数（比如 1000 步）内逐渐提高到正常大小（比如上面的 2e-5），避免模型过早进入局部最优而过拟合；

2024-06-09 10:10:59 412

空空如也

空空如也