AI生成曾小健-CSDN博客

原创 AI科研 scientist

Projects/AI-Scientist$ python launch_scientist.py --model "deepseek-coder-v2-0724" --experiment nanoGPT_lite --num-ideas 2Using GPUs: [0, 1, 2, 3, 4, 5, 6, 7]Using OpenAI API with deepseek-coder-v2-0724.Generating idea 1/2Iteration 1/3{'Name': 'dynamic

2024-09-12 23:05:16 399

原创 cursor使用教程

1.改主题。

2024-09-10 18:28:36 219

原创大模型环境配置，包括多机多卡 conda env export ＞ qwen_environment.yml同步环境

【代码】大模型环境配置，包括多机多卡。

2024-07-15 11:03:15 622

原创大模型多机多卡脚本实例 - 增量预训练 -accelerate和deepspeed命令多机多卡训练有什么不同

总的来说,Accelerate更适合快速上手和一般规模的模型训练,而DeepSpeed则更适合大规模模型和需要高度优化的场景。选择哪个框架取决于具体的项目需求、模型规模和可用的硬件资源。根据具体的硬件资源和模型规模,可以选择合适的优化策略或组合使用。管线并行(Pipeline Parallelism)单GPU或少量GPU上能提供高效的训练吞吐量。CUDA核函数,可以实现更快的推理速度。减少模型状态(参数、梯度、优化器。数据并行进程间分割模型状态。ZeRO和Offload。ZeRO和Offload。

2024-07-05 17:14:27 1218

原创 Ubuntu Linux AI大模型开发常用命令 - 更新中包括NVIDIA状态，和安装相关常用软件包，没事就背背 - 背诵创造美好生活

Ubuntu AI大模型开发常用命令 - 更新中包括NVIDIA状态，NVIDIA状态，实时更新：和安装相关常用软件包没事就背背，增加开发效率。

2023-06-21 11:28:05 415

原创极佳科技的自动驾驶场景生成模型drivedreamer和drivedreamer-2

2、ActionFormer学习生成和预测能力：以视频和驾驶动作为监督信息，输入初始场景图像、初始结构化信息、初始驾驶动作，生成未来场景场景视频，预测未来驾驶动作；3、UniMVM:相比之前的多视角单独图像输入的范式，UniMVM统一拼接多视角到一张图像作为输入，去掉了cross-view的网络层；4、结合以上的轨迹、高精地图、UniMVM和drivedreamer-1进行驾驶场景生成；1.1、以单帧图像为监督，输入单帧结构化信息和文本提示，生成单帧图像；2、输入初始场景图像、驾驶动作、

2024-09-20 16:43:58 234

原创 DINOv2：在没有监督的情况下学习鲁棒的视觉特征

最近在大量数据上的预训练模型自然语言处理方面取得的突破，为计算机视觉中的类似基础模型开辟了道路。这些模型可以通过生成通用视觉特征（即无需微调即可跨图像分布和任务工作的特征）来极大地简化任何系统中图像的使用。这项工作表明，现有的预训练方法，尤其是自监督方法，如果经过来自不同来源的足够的精选数据的训练，可以产生这样的特征。我们重新审视现有方法并结合不同的技术来扩展我们的预训练数据和模型大小。大多数技术贡献旨在加速和稳定大规模训练。

2024-09-18 22:41:15 1304

原创 Grounding DINO 是一种先进的零样本物体检测模型，由 IDEA-Research 在2023年开发

的对象，并适应新的对象和场景，使其在各种实际应用中具有很高的通用性和灵活性。Grounding DINO 是一种先进的零样本物体检测模型，由。Grounding DINO 是一个革命性的算法，广泛应用于。，每个框都有所有输入词的相似度评分。领域，展示了其强大的泛化能力和多样化的应用场景。Grounding DINO 的主要优势在于其。此外，Grounding DINO 还被用于。”，从而在AI系统中实现更高效的物体检测。Grounding DINO的推出。来生成图像中的特定位置的对象。

2024-09-18 22:11:36 278

原创 IDEA研究院Grounding DINO 1.5 双版本齐发，开创端侧部署新时代

计算机视觉与机器人研究中心（CVR，Computer Vision and Robotics）立足于计算机视觉和机器人方向的基础研究，专注于大规模视觉表示学习、物体检测与识别、智能控制等问题，通过核心技术的研究和突破，打造世界领先的机器视觉和智能机器人技术。例如，在医疗领域，通过微调后的Grounding DINO 1.5 Pro可以更准确地识别医疗影像中的病灶，辅助医生进行诊断，提高诊疗效率。Grounding DINO 1.5 在其前身 Grounding DINO 的基础上，通过结合更大的视觉。

2024-09-18 20:58:43 636

原创 plant_segmentation

【代码】plant_segmentation。

2024-09-18 12:14:59 92

原创 OneLLM：统一框架实现多模态与语言的对齐

上图展示了OneLLM的工作原理，它回答与每种输入相关的问题——无论输入的模态如何。其局限性在于仅支持单向对齐，例如图像到文本或音频到文本，而不支持反向或跨模态（如从音频生成图像）。在通过GitHub仓库运行它们的演示应用程序时，得到的响应效果很差。使用LLaMA-2 7B的Gradio聊天应用程序几乎无法理解给定的任何输入。

2024-09-17 22:52:32 413

原创 OLMoE: 开源的MoE语言模型(预训练&效果)

论文标题：OLMoE: Open Mixture-of-Experts Language Models论文链接：https://arxiv.org/pdf/2409.02060论文开源了OLMoE-1B-7B和OLMoE-1B-7B-INSTRUCT，包括模型、数据、代码和日志。OLMOE-1B-7B拥有7B参数，但每个输入token仅使用1B参数。论文在5T token上对其进行预训练，并进一步Adaptation以创建OLMoE-1B-7B-INSTRUCT。

2024-09-13 18:29:00 1093

原创 ChatGLM2

经过对ChatGLM、LLAMA和Baichuan大型语言模型升级之路的深入探讨，以及对LLM结构选型的全面分析，我们可以得出以下结论：大型预训练模型的升级过程主要体现在基础知识能力的提升和支持的序列长度变化。通过增加模型参数量和优化训练数据质量，模型可以更好地拟合各个领域的知识，并进一步提高模型性能；通过增加训练长度和调整位置编码外推性，支持更长的序列。在模型结构设计方面，选择合适的LLM结构对于实现高性能的大型预训练模型至关重要。通过引入合适的LayerNorm和激活函数，提高训练的稳定性；

2024-09-13 18:21:54 1177

原创 linear probing用于图像分类

综上所述，线性探测在图像分类中的应用主要集中在特征提取与分类、模型评估、通用图像编码器、零样本分类、自监督学习以及遥感图像分类等多个方面。通过线性探测，可以有效地评估和提升图像分类模型的性能。：在自监督学习中，线性探测被广泛用于评测预训练表征的好坏。例如，在CAE模型中，研究者使用线性探测来评测预训练表征的质量。模型通过线性探测、k-NN分类等方法，展示了其在不同模型规模上始终优于基线基础模型的能力。提取图像特征的能力。在其他领域的应用，特别是在零样本分类任务中。：在CLIP模型中，线性探测被用于评估。

2024-09-13 14:59:34 188

原创以DeepSeek-VL为例，详解视觉语言模型原理及代码

目前图像占位符（<image_placeholder>）在token id中仅占一个位置（对应的token id为100015），但最终输入到LLM中的图像占的token数量是576，需要提前扩充，通过如下代码找到输入的token id中图像的位置，然后调用add_image_token函数将每一个图像占位符复制成576个，此时可以得到最终的输入到LLM中的token id list。然后就是过12层VIT的block了，最终的输出形状也为（576，1024）。

2024-09-13 14:54:19 1093

原创 DPO，RM，RLHF 傻傻分不清楚

传统 DPO 采用了大量的 offline 数据在训练早期进行推理，但随着训练的进行，offline 数据的 off-policy 程度会变高，导致生产的数据与正在优化的 policy 之间距离过大的问题，难以取得较好的效果。所以聪明的你估计已经看到了，针对在RM的不足，最好的方式是在DPO的时候加上RM的弥补泛化性的不足。从机制上就没有什么关系，因为假设我们采样到了这个回答，由于这个回答是分布外的，所以作为KL散度约束的分母，会把KL惩罚做的极大，消除所有reward的收益。

2024-09-13 12:27:58 609

原创吴恩达站台畅聊Agent Workflow 以及 4 种主流设计模式，LLM应用开发的新热点

如果你实际上看看文献，很有趣的是，很多在使用方面的工作似乎都起源于视觉领域，因为在 GPT-4 等出现之前， LLM 对图像是盲目的，这就是使用，并扩展了 LLM 可以做的事情。我部分感觉，如果你期待在 GPT-5 上运行你的东西，零次射击，你可能真的会在某些应用上获得比你想象的更接近那种水平的表现，通过 Agent 推理，但在一个早期模型上，我认为，这是一个重要趋势。我认为这更多是一个新兴的领域，当我使用它们时，有时候我对它们的表现感到惊讶，但至少在此刻，我感觉我不能总是可靠地让它们工作。

2024-09-13 12:23:57 1005

原创 experiment.py. scientist

定义一个名为 CausalSelfAttention 的类，继承自 nn.Module，用于实现因果自注意力机制。定义一个名为 Block 的类，继承自 nn.Module，用于实现 Transformer 的基本块。定义一个名为 LayerNorm 的类，继承自 nn.Module，用于实现层归一化。定义一个名为 GPT 的类，继承自 nn.Module，用于实现 GPT 模型。以上是对代码文件的逐行解释。否则设置为 None。定义一个名为 MLP 的类，继承自 nn.Module，用于实现多层感知机。

2024-09-13 10:51:20 725

原创 launch_scientist.py 源码

从 ai_scientist.perform_review 模块导入 perform_review、load_paper 和 perform_improvement 函数，用于审查论文和改进。添加 --model 参数，指定要使用的模型，提供多个选项，默认为 "claude-3-5-sonnet-20240620"。添加 --experiment 参数，指定要运行的实验类型，默认为 "nanoGPT"。以上是对代码文件的逐行解释。添加 --writeup 参数，指定撰写的格式，默认为 "latex"。

2024-09-12 23:21:31 521

原创 deepseek 型号和价格，合并了coder

以下列出的价格以每 1M 个 token 为单位。token 是模型识别的最小文本单位，可以是单词、数字，甚至可以是标点符号。我们将根据模型输入和输出的。产品价格可能有所不同，DeepSeek 保留调整价格的权利。我们建议根据实际使用情况进行充值，并定期查看此页面以获取最新的价格信息。，相应费用将从您的充值余额或赠予余额中直接扣除，当两种余额都可用时，优先使用赠予余额。¥0.1 / 100 万代币。¥1 / 100 万代币。¥2 / 100 万代币。deepseek 聊天。token 总数计费。

2024-09-12 22:09:47 215

原创 DeepSeek-Coder-V2：打破代码智能闭源模型壁垒

与 DeepSeek-Coder-33B 相比，DeepSeek-Coder-V2 在代码相关任务的各个方面以及推理和通用能力方面都有了显著的进步。此外，DeepSeek-Coder-V2 将其对编程语言的支持从。具体来说，DeepSeek-Coder-V2 从 DeepSeek-V2 的中间检查点进一步预训练，增加了。的DeepSeek-Coder-V2，而DeepSeek-Coder-V2的有效参数量仅为。DeepSeek-Coder-V2-Lite-指导。DeepSeek-Coder-V2-基础版。

2024-09-12 22:05:52 425

原创人工智能科学家：迈向全自动开放式科学发现AI Scientist Sakana AI

这里和下面，我们给出了设置每个模板的数据和基线评估的说明。这必须在您的机器上运行，因为训练时间可能因您的硬件而异。（通常，我们会在文件本身中执行此操作，但由于它是可见的，因此不清楚这会如何影响 AI Scientist）。，这是第一个用于全自动科学发现的综合系统，它使大型语言模型 (LLM) 等基础模型能够独立进行研究。提供了我们论文中的所有运行和数据，其中我们在每个模板上运行每个基本模型以获得约 50 个想法。），我们的代码还可以选择使用它来提高吞吐量，但原则上如果没有它它也应该能工作。

2024-09-12 21:33:38 881

原创 python监控工具 profiler - py-spy、austin

因此，可以使用 Austin 轻松制作强大的统计分析器，这些分析器对目标应用程序的影响最小，并且不需要任何仪器。为了提高采样准确性，Austin 可以分配一个堆，用于获取被跟踪者的私有 VM 的大快照，这些快照可能在一次尝试中包含帧信息。二进制模式可用于生成收集数据的更紧凑的二进制表示，并且通过利用帧数据内部缓存的性能增强，可以更高效地生成。使用二进制 MOJO 格式时，Austin 可以在分析使用公开此数据的解释器版本运行的代码时提取此额外的位置信息。因此，即使您的系统未列在下面，也值得一试。

2024-09-12 20:43:27 1084

原创 StarGAN——官方 PyTorch 实现

良好的图像到图像转换模型应学习不同视觉域之间的映射，同时满足以下属性：1）生成图像的多样性和 2）跨多个域的可扩展性。在 CelebA-HQ 和新的动物面孔数据集 (AFHQ) 上进行的实验验证了我们在视觉质量、多样性和可扩展性方面的优势。通过拥有多个（三个）领域和每个领域中不同品种的不同图像，AFHQ 设置了一个具有挑战性的图像到图像转换问题。最近的研究表明，两个领域的图像到图像转换取得了显著的成功。如果您使用更新后的数据集，我们建议不仅引用我们的论文，还引用他们的论文。我们通过实证证明了我们的方法在。

2024-09-12 16:31:05 1152

原创零样本模型的稳健微调论文翻译

零样本模型的稳健微调米切尔·沃茨曼∗†加布里埃尔·伊尔哈科∗†抽象的大型预训练模型（例如 CLIP 或 ALIGN）在执行零样本推理（即无需对特定数据集进行微调）时，可在一系列数据分布上提供一致的准确度。尽管现有的微调方法可以大幅提高给定目标分布的准确度，但它们通常会降低对分布偏移的鲁棒性。我们通过引入一种简单有效的方法来提高微调时的鲁棒性来解决这一矛盾：集成零样本和微调模型的权重（WiSE-FT）。与标准微调相比，WiSE-FT 在分布偏移下提供了很大的准确度改进，同时保持了目标分布的

2024-09-11 16:52:37 1186

原创零样本模型的稳健微调

在 ImageNet（分布内）和五个派生分布偏移上，WiSE-FT 将分布外准确率提高了 4 到 6 个百分点（pp），而分布内准确率提高了 1.6 pp。WiSE-FT 在另外六个分布偏移的多样化集合上实现了同样大的稳健性改进（2 到 23 pp），与七个常用迁移学习数据集上的标准微调相比，尽管现有的微调方法可以大幅提高分布内的准确率，但它们往往会降低分布外的稳健性。TLDR：我们对零样本模型进行微调，同时在微调或推理期间保持或提高 OOD 准确度，且无需额外的计算成本。零样本模型的稳健微调。

2024-09-11 16:47:30 582

原创 Scaling Law瓶颈，Cursor编程为什么这么强？团队参与新研究掏出秘密武器

Scaling Law瓶颈，Cursor编程为什么这么强？团队参与新研究掏出秘密武器机器之心2024年09月11日 12:37北京机器之心报道编辑：Panda、佳琪近段时间，AI 编程工具Cursor的风头可说是一时无两，其表现卓越、性能强大。近日，Cursor 一位重要研究者参与的一篇相关论文发布了，其中提出了一种方法，可通过搜索自然语言的规划来提升 Claude 3.5 Sonnet 等 LLM 的代码生成能力。具体来说，他们提出的方法名为 PlanSearch（规划

2024-09-11 16:35:50 982

原创 open clip 结果

open_clip/docs/openclip_results.csv at main · mlfoundations/open_clip · GitHub

2024-09-11 16:05:40 115

原创 Open CLIP

CLIP欢迎来到 OpenAI 的开源实现（对比语言-图像预训练）。利用此代码库，我们在各种数据源和计算预算上训练了多个模型，包括更大规模的运行，包括在以下数据集上训练的模型和.本文详细研究了我们的许多模型及其缩放特性。下面显示了我们训练过的一些最佳模型及其零样本 ImageNet-1k 准确率，以及由 OpenAI 和其他最先进的开源替代方案训练的 ViT-L 模型（所有模型都可以通过OpenCLIP加载）。我们提供了有关我们完整的预训练模型集合的更多详细信息以及38 个数据集的零样本。

2024-09-11 16:00:59 960

原创何恺明最新一作：简单实用的自监督学习方案MAE，ImageNet-1K 87.8%！线性探测来源

作为消融实验的骨干，上表为从头开始训练与MAE微调的性能对比。，所提MAE包含一个将观测信号映射为隐式表达的编码器，一个用于将隐式表达重建为原始信号的解码器。因此，解码器的设计可以独立于编码设计，具有高度的灵活性。而MoCoV3则可以看到200%，甚至更多的图像块。任务上的迁移性能对比，可以看到：MAE可以大幅改善ViT-L的性能，比监督训练高3.7。通过这种非对称设计，token的全集仅被轻量解码器处理，大幅减少了预训练时间。非常轻量，仅有8个模块，维度为512，每个token的计算量仅为编码的9%。

2024-09-11 12:01:09 760

原创 CLIP-convnext_xxlarge-laion2B-s34B-b82K-augreg-soup

CLIP-convnext_xxlarge-laion2B-s34B-b82K-augreg-soup 的模型卡目录模型详细信息模型描述使用timm在 LAION-2B（英语）（的一个子集）上训练的一系列 CLIP ConvNeXt-XXLarge（自定义的ConvNeXt 大小）模型。模型数据集解决八月注册拉伊奥-2B256x25679.1拉伊奥-2B256x25679.3拉伊奥-2B256x256不适用79.4。

2024-09-11 11:49:01 1261

原创 convnext_xxlarge.clip_laion2b_soup_ft_in12k timm模型库

on LAION。

2024-09-11 11:34:55 778

原创美国大学CSRanking

2024-09-10 13:52:58 114

原创 timm库中最强的各类模型，图像分类

链接：

2024-09-10 13:51:56 552

原创 timm真正加载的路径

main()^^^^^^^^^^

2024-09-05 23:58:56 342

原创加州理工学院_ bird2011 CUB-200-2011 dataset

Caltech-UCSD Birds 200 (CUB-200) 是一个包含 200 种鸟类（主要是北美鸟类）照片的图像数据集。鸟类的类别总数为 200 个，2010 年数据集中有 6033 幅图像，2011 年数据集中有 11,788 幅图像。注释包括边界框、分割标签。加州理工学院_ bird2011。加州理工学院_ bird2011。（默认）：没有发行说明。

2024-09-02 12:13:15 206

原创一步学习，一步回顾知识遗忘

随着预训练视觉模型的兴起，视觉微调已引起广泛关注。目前流行的方法，即完全微调，存在知识遗忘问题，因为它只关注拟合下游训练集。在本文中，我们提出了一种新的基于权重回滚的微调方法，称为 OLOR（一步学习，一步回顾）。OLOR 将微调与优化器相结合，在每一步的权重更新项中加入权重回滚项。这确保了上游和下游模型的权重范围一致，有效地缓解了知识遗忘，并增强了微调性能。此外，还提出了逐层惩罚，以使用惩罚衰减和多样化的衰减率来调整层的权重回滚水平，以适应不同的下游任务。

2024-09-02 11:43:27 1128

原创 cursor命令行

2024-08-31 14:21:39 126

原创多模态大模型(MLLM)训练篇 - Pre-training

预训练阶段（Pre-training）

2024-08-30 10:26:31 1018

原创抄DeepSeek！ Claude推出超长提示缓存：成本砍掉 90%，延迟爆降 85%

开发人员通常在提示词中包含几个示例，但通过提示词缓存，您可以通过包括数十个多样化的高质量输出示例来获得更好的性能。早期客户在多种使用场景中通过提示词缓存实现了显著的速度和成本改进——从包含完整知识库到 100 次样本提示再到将对话的每一次转折纳入提示词中。说到成本，由于需要将提示词存储在缓存中，初始API调用会稍微贵一些，但随后的所有调用价格仅为正常价格的十分之一。当你使用这些附加功能进行API调用时，claude会检查您的提示词的指定部分是否已从最近的查询中缓存。提示词缓存在多轮对话中也能发挥作用。

2024-08-30 10:23:32 775

avx2_tensorflow-1.9.0-cp36-cp36m-win_amd64.zip

空空如也