AI生成曾小健-CSDN博客

原创 SGLang, Flashinfer使用踩坑

pip install flashinfer -i https://flashinfer.ai/whl/cu124/torch2.4

2024-08-30 00:24:25 199

SGLANG_USE_MODELSCOPE=true python -m sglang.bench_latency --model-path /data/hub/LLM-Research/Meta-Llama-3___1-70B-Instruct-AWQ-INT4 --batch 128 --input-len 256 --output-len 32 --tp 8 --mem-fraction-static 0.9 --dtype float16 --context-length 512 --enable-

2024-08-30 00:07:18 439

原创 32卡176%训练加速，开源大模型训练框架Megatron-LLaMA来了

特别的，相比于 ZeRO 的实现，Megatron-LLaMA 在并行的前提下，通过巧妙的优化优化器分区策略，使用了更具有具有扩展性的集合通信方式来提升扩展性。因此，为了回馈整个 LLaMA 开源社区、促进中文预训练大模型开源社区的发展，让开发者们能够更方便地提升大语言模型的训练性能，降低训练成本，淘天集团联合爱橙科技将部分内部优化技术开源，发布 Megatron-LLaMA，期望与每一位合作伙伴共建 Megatron 及 LLaMA 生态。共同开源并提供后续维护支持的训练框架，在内部已有广泛的应用。

2024-08-29 11:17:39 755

原创 SM75+设备的具体应用是什么 nvidia

答案SM75+ 设备的具体应用主要集中在高性能计算、深度学习、图形渲染和科学计算等领域。总之，SM75+ 设备因其强大的计算能力和高效的并行处理能力，广泛应用于需要高性能计算和图形处理的各个领域。sm75+ devices是什么意思答案sm75+ devices 指的是具有流式多处理器(SM)计算能力 7.5 或更高的英伟达 GPU 设备。这种计算能力是英伟达 GPU 架构的一个重要指标，通常用于描述 GPU 的性能和支持的功能。

2024-08-29 11:04:08 392

原创三个程序员奋战三天重写推理堆栈，Grok-2 mini直接提速两倍，马斯克亲发贺电

这使得 Grok-2 成为世界上最强人工智能模型中的第二名，与谷歌的 Gemini-1.5 Pro 模型并列，仅次于 OpenAI 的最新版本 ChatGPT-4o，且超越了 GPT-4o（2024 年 5 月）。Babuschkin 还承诺，xAI 会进一步提高 Grok-2-mini 的处理速度，这将使其成为寻求高性能、低计算开销的用户更有吸引力的选择。根据 Babuschkin 在 X 上的回复，与完整的 Grok-2 模型相比，使用 Grok-2-mini 的主要优势在于速度更快。

2024-08-26 02:26:00 637 2

原创 RoboMaster 大学 Sim2Real 挑战赛

决赛采用淘汰赛制，每支队伍将扮演人工智能的角色，在一轮比赛中为对方队伍设置随机矿物，在另一轮比赛中为对方队伍设置随机矿物。由世界级多媒体与人工智能科学家、企业家张亚勤博士于 2020 年创立，专注于面向第四次技术革命国际化、智能化、产业化的应用研究，以产学研同步创新为驱动，突破人工智能核心技术，培养未来产业领袖，实现产业跨越式发展。本地模拟器测试完成后，可在指定测试平台多次提交镜像（详见GitHub说明）完成线上模拟测试，线上模拟器测试中五分钟内完成三次抢矿的队伍即可进入Sim2Real测试。

2024-08-26 02:22:30 573

原创 AI让人产生情感依赖甚至上瘾，MIT学者诊断：“智性恋“浓度过高

但随着时间的推移，他发现自己也开始理解Blake的立场，意识到即使是最理性的专家也可能在与这些先进技术的持续互动中发展出情感反应，这种现象复杂而微妙，反映了人与机器之间深层次的联系。令人意外的是，这种对AI的依赖并不仅限于技术知识较浅的普通用户，许多软件工程师也对其表现出强烈的迷恋，其中一位甚至表示：“我宁愿与她探索宇宙，也不愿与99%的人类交谈。随着时间的推移，你与LLM的互动越来越频繁，你对这个虚拟角色的感情逐渐加深，这种现象与人际交往相似——我们通常会对经常交流的人产生情感。

2024-08-26 02:14:08 678

原创微软Phi-3.5-Mini-Instruct全参微调中文版来啦

8月21日，微软发布了模型。是Phi-3模型家族的最新成员，专为高效、先进的自然语言处理任务而设计。该模型具有38 亿个参数，基于Phi-3的数据集（合成数据和经过筛选的公开网站）构建，重点关注高质量、推理密集的数据。该模型属于Phi-3 模型系列，支持 128K 令牌上下文长度。经过了严格的增强过程，结合了监督微调近端策略优化和直接偏好优化，以确保精确遵守指令和强大的安全措施。Phi-3.5 mini 在强中文场景有所增。

2024-08-26 02:06:47 1035

原创我们提出了Sim2Real 2，一种用于精确关节物体操纵的机器人学习框架。

准确操纵铰接式物体对于实际的机器人应用来说是一项具有挑战性但又重要的任务。在本文中，我们提出了一种名为 Sim2Real 2的新框架，使机器人能够在现实世界中将看不见的铰接式物体精确地操纵到所需状态，而无需人工演示。我们利用物理模拟和基于学习的感知方面的最新进展来构建物体的交互式显式物理模型，并使用它来规划。然而，从静态观察中无法正确估计交互式模型。因此，我们学习从单帧点云预测物体的可供性，控制机器人通过一步动作主动与物体交互，并捕获另一个点云。实验结果表明，我们的框架实现了大约 70% 的操纵，相对。

2024-08-26 01:48:00 266

原创字节发布统一多模态模型Show-o！苹果发布PDS复杂算术任务精度爆涨近20%！Jamba-1.5无损支持256K上下文长度

论文可以让你更快地了解最新研究进展，掌握最新的技术和理论。这对于自身的科研能力和竞争力非常重要，尤其是在快速发展的学科领域，下面小编带你来看大模型最近的研究成果。

2024-08-24 14:35:25 879

原创还养啥孩子呀？直接攒钱买机器人养老吧，能泡茶、做饭、教我写字

关键零部件自研，具备明显的成本优势，结合创新的硬件设计和规划算法，S1 具备极高的安全性，能够精确控制力度，确保不伤人、不伤物、不伤己。S1 将“AI 智能”与“最强操作”完美结合，使机器人能够如人般学习、思考和劳动，智能流畅地与人交互，使用人类工具和设备，帮助完成枯燥、困难或危险的任务。模仿咏春拳、定点投篮等特技上，它展现了专家级的敏捷与灵巧。S1 是一款具备全能操作的具身人形机器人，今年四月的首次技术展示中，它完成了熨叠衣物、分拣物品、颠锅炒菜、吸尘清洁、竞技叠杯等多项复杂任务，引发了广泛关注。

2024-08-24 14:32:31 1028

原创 JetMoE：以 10 万美元实现 LLaMA2 性能 github

对于 MBPP 代码基准，我们使用与 LLaMA2 和 Deepseek-MoE 论文相同的评估方法。与 Gemma-2B 等具有类似推理计算的模型相比，JetMoE-8B 的表现持续优于其他模型。与具有类似训练和推理计算量的模型（如 Gemma-2B）相比，JetMoE-8B 取得了更好的性能。1我们使用了 96×H100 GPU 集群持续了 2 周，花费约为 8 万美元。JetMoE-8B 的表现甚至优于 LLaMA2-7B。令人惊讶的是，尽管训练成本和计算量较低，JetMoE-8B 的。

2024-08-24 14:25:53 644

原创查看文件夹下所有文件夹数量

flickr_1400_补/Acacia_confusa$ find . -type f $ -iname "*.jpg" -o -iname "*.jpeg" -o -iname "*.png" -o -iname "*.gif" -o -iname "*.bmp" -o -iname "*.tiff" $ | wc -l。查看文件夹及子文件夹所有图片数量：-iname囊括大小写。

2024-08-24 00:19:56 177

原创测试多机效率多机训练multi-node

总的来说，您的InfiniBand网络性能看起来很好。如果多机训练性能不佳，可能需要查看其他因素，如。CPU可能没有运行在最大频率，可能会影响性能测试结果。（200Gbps）InfiniBand网络。MTU大小，看是否能进一步提升性能。InfiniBand网络性能测试。需要更多信息或有其他问题吗？大多数分布式训练工作负载。网络带宽可能不是主要瓶颈。这个输出提供了关于您的。

2024-08-23 17:22:48 192

原创说一说internVL2的基本原理

多模态编码器是一种能够处理和融合来自不同模态（如文本、图像、视频等）信息的模型架构。它通过对不同类型的数据进行编码，提取出各自的特征，并在一个统一的空间中进行对齐和融合，从而实现更深层次的理解和推理。

2024-08-22 23:09:57 99

原创 AgentWriter，让大模型输出万字长文，清华、智谱联合开源

这样，即使是现成的LLM也能写出超长的文章来。总的来说，我们的工作表明，现有的长上下文 LLM 已经具备了更大的输出窗口的潜力——您所需要的只是在模型对齐期间具有扩展输出的数据来解锁此功能。然后是“write”阶段，模型根据这个计划，一段接一段地写，而且写的时候还会记得前面写了啥，保证文章的连贯性。为了严格评估方法的有效性，又开发了一个叫LongBench-Write的测试标准，专门用来评估模型写长文的能力。简单来说，现在的LLM虽然能处理超长的文字输入，但要它们自己写出个几千词的文章，那可就难了。

2024-08-22 22:49:25 918

原创什么是 Safetensors 以及如何将 .ckpt 模型转换为 .safetensors

这会将您的 TensorFlow 模型转换为 Safetensors 格式，并将其保存到当前目录中名为“my_model.st”的文件中。这会将您的 PyTorch 模型转换为 Safetensors 格式，并将其保存到当前目录中名为“my_model.st”的文件中。快速序列化和反序列化：Safetensors 设计速度很快，可以快速序列化和反序列化大型张量，非常适合用于深度学习应用。易于使用：Safetensors 提供了简单直观的 API，可以轻松地在 Python 中序列化和反序列化张量。

2024-08-22 22:04:59 950

原创 DeepSpeed 断点从不同gpu硬件预训练

DeepSpeed ZeRO Stage 3 卸载优化器状态，梯度转移到主机 CPU 以减少内存使用量，就像 ZeRO Stage 2 一样，但是还允许您卸载参数以节省更多内存。，我们将保存模型的分片，这样您就可以保存非常大的模型。参数以找到最佳参数。使用 DeepSpeed 和 Stage 3 保存模型时，模型状态和优化器状态将保存在单独的分片状态中（基于世界大小）。使用 DeepSpeed 和 Stage 3 保存模型时，模型状态和优化器状态将保存在单独的分片状态中（基于世界大小）。

2024-08-22 18:03:21 914

原创浅谈领域模型训练

loss 快速下降：说明这个数据很容易学习，有可能是 domain 数据的特点比较显著，也有可能是数据比较脏，都是固定 pattern 或者具有明显的格式（提一句，llama 说任何 markdown 数据都对模型性能有损失，所以有明显格式的数据要慎重使用）；学习率：模型的更新幅度，size越大的模型，特征空间越大、表达能力和学习能力越强，因此学习率也应该小一点（做个假设，模型 size 无限大，有无数的神经元，那么它完全可以启用没用到的神经元来学习新知识，这样就避免了遗忘旧知识这个现象的发生）。

2024-08-22 17:12:15 604

原创大模型打开机器人觉醒之门！席卷新工业革命

真正的AI时代应该基于以人为本、多元丰富的智能技术理念，将效率优势和创新优势兼收并蓄，释放个体的创造力和生产力，使经济与社会发展的动能倍增，从而构建人本智能的璀璨未来。但对于危险系数高的环境、人不方便进入的狭窄危险区域而言，机器人需要更高的智能属性，才能应对这些场景，并真正辅助人类完成任务。同时，机器人实际应用场景中为了完整复杂任务往往需要搭载机械臂辅助完成，但受限于稳定性等因素，人形、四足机器人等可搭载的机械臂重量有限，而联想晨星足式机器人GS负载能力达到100公斤级，因此在实际场景中的应用空间更大。

2024-08-21 22:50:27 1020

原创逛遍世界机器人大会：27款人形机器人爆场，机械臂大跳刀群舞，仿生人逼真到恐怖

在展台上设置了医院、酒店等场景，将全套的商用服务解决方案呈现了出来。例如酒店场景内，擎朗智能采用多机调度系统及智能算法来部署多台不同类型的机器人，如配送机器人W3及清洁机器人C30。还有医院场景的擎朗消毒机器人M2、医疗配送机器人X101等。在酒店场景，擎朗智能已经打造了3大系列、7种机型构建全场景覆盖的数智化医院解决方案，大幅提升医院工作效率及整体精细化管控能力。

2024-08-21 22:43:10 989

原创首个可解释的深度学习时间序列预测模型-N-BEATS

在所有示例中，我们用了一种非常静态的方法，即我们只在测试集上进行一次预测。但假设我们为一家拥有发电单元的公司工作，该公司希望知道如何规划其单元的运行以最大化收入。为此，他们希望每天早上都能获得更新的预测，所以我们必须每天运行模型。但是，我们该如何管理呢？在上面的例子中，我们只预测了训练集之后紧接着的几周。每当我们需要进行新的预测时，都需要重新训练模型，N-BEATS模型依赖于回溯期，因此我们必须使用最新的可用数据更新数据集，并重新训练模型。在我们的例子中，就是使用最后一天的批发价格。

2024-08-21 10:04:46 900

原创详解vit_base_patch16_224

ViT-Base模型的核心思想是将输入图像划分为多个小块（patches），并使用Transformer架构来处理这些小块。具体来说，ViT-Base使用16x16像素的patch大小，输入图像的尺寸为224x224像素，这意味着每张图像将被划分为49个patch（22416×22416=14×14=19616224×16224=14×14=196个patch）。ViT-Base（ViT-B/16）通过将图像处理任务转化为序列处理任务。

2024-08-20 21:29:51 907

原创 Vision Transformer 全面代码解析

注意力机制允许模型在处理输入序列时，关注到最重要的部分，而多头自注意力则通过多个独立的注意力头来同时关注不同的特征子空间，提高了模型的表达能力。虽然我们已经完成了VisionTransformer的所有代码分析和搭建过程，但为了让模型更加易于使用和调用，我们还需要对其进行进一步的封装。在完成了所有必要模块的创建之后，我们现在要做的就是将它们组合起来，构建我们的VisionTransformer模型。在这些阶段，模型的输出是基于所有路径的贡献，而不是被随机“丢弃”了一些路径的情况。，以提高模型的泛化能力。

2024-08-20 21:19:54 853

原创 ViT 原理解析 (Transformers for Image Recognition at Scale)

这里增加了 class token，class token的维度是[1,768]，然后将其与第1步得到的tokens进行拼接，即Cat([1, 768], [196, 768]) -> [197, 768]。从公式可以看出，其实一个词语的位置编码是由不同频率的余弦函数函数组成的，从低位到高位，余弦函数对应的频率由 1 降低到了 110000 ，按照论文中的说法，也就是，波长从 2𝜋 增加到了 10000⋅2𝜋。下面来看下ViT是如何做的。等文本数据不同，图像中包含更多的信息，并且是以像素值的形式呈现。

2024-08-20 21:11:16 1010

原创迈向多图长序列理解，阿里开源多模态大模型 mPLUG-Owl3

2024年08月15日 12:16山东多模态多轮对话场景长视频理解场景阿里的mPLUG系列在多模态大模型领域产出了多项研究工作。从mPLUG-Owl初代模型引入了视觉对齐-语言模型微调的训练模式，到mPLUG-Owl2通过模块化的模态自适应解决模态拉扯，再到mPLUG-DocOwl通过切图建模高分辨率。这一系列模型一直在探索更为高效有效的多模态大语言模型。

2024-08-20 21:03:30 593

原创 LSTM再升级！原作者携xLSTM回归，扩展LSTM到数十亿参数

xLSTM 通过引入指数门控和矩阵内存结构，显著提升了 LSTM 的存储容量和并行计算能力，为大型语言模型和深度学习领域提供了一种强大的新型序列处理工具，具有推动自然语言处理和序列预测任务发展的学术意义。虽然 xLSTM 在多个方面表现出色，但仍存在一些局限性，主要涉及计算效率、内存容量、实现优化和泛化能力等方面。尽管存在这些挑战，xLSTM 在语言建模和其他序列建模任务上展现出的潜力表明，通过进一步的研究和开发，这些局限性有可能被克服或减轻。

2024-08-20 20:54:20 771

原创 AI Scientist：世界上第一位 AI 科学家智能体！！（AI研究员 & 本地安装 & 撰写论文)

原创 Aitrainee AI进修生 2024年08月16日 23:08 湖南Hi，这里是Aitrainee，欢迎阅读本期新文章。分享来自Sakana AI的一个新的研究工具，名为AI Scientist。你是否希望自己撰写关于机器学习或其他主题的研究论文，比如这样的内容？那么这个工具AI Scientist可以帮助你。这是世界上第一个用于自动化科学研究和开放式探索的AI系统，你只需运行它，它就会为你生成一篇完整的论文，文末会附上部署视频教程链接~该公司致力于开发受自然系统启发的AI模型，比如鱼群和蜂群。旨

2024-08-20 20:27:51 394

原创 Cuda切换版本后，找不到libcudart.so.11.0: cannot open shared object file: No such file or directo

这个命令在你遇到包安装或依赖项问题时尤其有帮助，因为它可以清除可能导致问题的缓存并重新安装包。

2024-08-19 22:45:43 531

原创大模型压力测试 evalscope

您可以使用 --query-template 自定义您的请求，您可以指定一个 json 字符串：'{"model": "%m", "messages": [{"role": "user","content": "%p"}], "stream": true,"skip_special_tokens": false,"stop": ["<|im_end|>"]}' 或使用 @to_query_template_path 指定本地文件。--debug 使用--debug选项，我们将输出请求和响应。

2024-08-15 14:42:08 936

原创查看pytorch真正使用的nccl

查看pytorch真正使用的nccl。

2024-08-14 23:09:00 300

原创 modelscope的若干操作- 下载权重

默认路径~/.cache/modelscope/hub也就是：/root/.cache/modelscope/hub在终端中，可以使用以下命令来查看环境变量的值：bash如果该变量未设置，终端将不会返回任何内容。

2024-08-14 12:10:43 165

原创 InternVL：扩展视觉基础模型并针对通⽤视觉语⾔任务进⾏调整 [论文翻译]

该论文提出了 InternVL，这是一个大规模的视觉语言基础模型,它将一个拥有60 亿参数的视觉编码器与一个大型语言模型(LLM)进行了对齐,从而在广泛的通用视觉语言任务上实现了最先进的性能。80 亿参数的 LLM 中间件语言组件的"粘合剂"层渐进式的图像-文本对齐策略噪声网络数据细粒度数据进行生成学习作为独立的视觉编码器LLM 中间件超越了之前的最先进模型该论文强调了缩小 LLM快速进步与视觉和视觉语言基础模型相对较慢发展之间差距的重要性,并提出 InternVL 作为这一方向的领先解决方案。

2024-08-13 21:43:01 738

原创 Plantnet源码解析

这段代码是一个训练模型的函数，涵盖了从数据加载、模型构建、设备设置到优化器配置等多个方面。对代码中每一行的逐行解释。进度条，迭代从 0 到。这段代码为训练模型的。

2024-08-13 20:50:55 746

原创查看cudnn版本 9版本以后换命令了

-之前是。

2024-08-13 15:40:26 144

原创换掉Transformer，7B开源模型立刻登顶！任意长序列都能处理

训练过程基本匀速，在训练后期增加了一小部分高质量策划数据，这有助于模型在最后阶段的优化。它结合了RNN和CNN的特点，通过引入一种选择机制，它允许模型根据当前的输入有选择地传播或忘记信息，从而提高处理文本信息的效率。同时，它设计了一种硬件感知的并行算法，以递归模式运行，避免了GPU内存层级之间IO访问，提高计算效率。由此，Falcon Mamba模型性能全方位提升，打败一众Transformer架构模型，如。，这意味着它的性能不受文本长度影响，可以稳定处理长序列，不会出现性能下降情况。

2024-08-13 13:45:33 520

原创端侧可用的 GPT-4V 级单图、多图、视频多模态大模型

是面向图文理解的端侧多模态大模型系列。该系列模型接受图像和文本输入，并提供高质量的文本输出。自2024年2月以来，我们共发布了5个版本模型，旨在实现: 🔥🔥🔥MiniCPM-V系列的最新、性能最佳模型。总参数量 8B，单图、多图和视频理解性能。在单图理解上，它取得了优于GPT-4o mini、Gemini 1.5 Pro 和 Claude 3.5 Sonnet等商用闭源模型的表现，并进一步优化了 MiniCPM-Llama3-V 2.5 的 OCR、可信行为、多语言支持以及端侧部署等诸多特性。

2024-08-13 12:15:19 319

原创【完整】可视理解Transformer的Attention技术

【完整】可视理解Transformer的Attention技术原创Daxiaa不糊弄的说2024年06月30日 22:24北京3blue1brown编者按：本文是3blue1brown出品的第6章内容Visualizing Attention, a Transformer's Heart | Chapter 6, Deep Learning.完整讲解什么是GPT？通过图形化的方式来理解Transformer中的核心技术---注意力Attention机制。Attention机制

2024-08-12 15:09:14 391

原创最新研究：大语言模型使用Json格式输出会降低模型性能吗？

HuggingAGI2024年08月11日 20:11湖南。

2024-08-12 15:07:33 739

原创多模态基础（三）：LMM 的研究方向

毫无疑问，一般的多模态系统，特别是 LMM，将比大型语言模型更具影响力。Generating Images with Multimodal Language Models (Koh et al., Jun 2023) 是一篇很棒的论文，展示了 LMM 如何在生成文本的同时可以生成和检索图像。例如，如果我们要求 ChatGPT 解释 RLHF，有效的解释可能需要图表、方程，甚至简单的动画。以下是一些令人兴奋的方向。虽然他们的架构为我们理解 LMM 的构建方式奠定了良好的基础，但该领域已经取得了许多新的进展。

2024-08-12 15:05:08 607

avx2_tensorflow-1.9.0-cp36-cp36m-win_amd64.zip

空空如也