自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4419)
  • 资源 (4)
  • 收藏
  • 关注

原创 阿里安全使用 NVIDIA NeMo 框架和 TensorRT-LLM 的大模型工程化落地实践

随着 ChatGPT 的一夜爆火,大模型如今越来越广泛的应用到各种业务领域中,阿里安全的业务领域对大模型技术的应用也已经 2 年有余。本文对阿里安全在大模型工程领域积累的实践经验做出总结和分享。在大模型实际应用实践的过程中,阿里安全采用NVIDIA NeMoTM 框架和大语言模型推理加速库,显著优化了模型训练与推理性能。

2025-04-19 08:18:36 25 1

原创 Tracing the thoughts of a large language model【追踪大型语言模型的思维】

像 Claude 这样的语言模型不是由人类直接编程的——相反,它们是在大量数据上进行训练的。在训练过程中,它们学习自己的解决问题策略。这些策略被编码在模型为每个单词执行的数十亿次计算中。对于我们这些模型开发者来说,这些策略是难以理解的。这意味着我们不理解模型如何完成它们大多数的任务。了解像 Claude 这样的模型如何思考,将使我们更好地理解它们的能力,并帮助我们确保它们按照我们的意图行事。例如:Claude 可以说几十种语言。它“脑海中”使用的是哪种语言(如果有的话)?Claude 一次写一个词。

2025-04-16 23:24:52 47

原创 多模态:Phi-3.5-vision-instruct【4.2B参数】【微软】

Phi-3.5-vision-instruct是微软最新发布的 Phi-3.5 系列中的一个AI模型,专注于多模态任务处理,尤其是视觉推理方面的能力。参数的系统,集成了图像编码器、连接器、投影器和Phi-3 Mini语言模型,训练使用了256个NVIDIA A100-80G GPU,训练时间为6天。Phi-3.5-vision在多模态多图像理解(MMMU)中的得分为43.0,相较于之前版本有所提升,显示了其在处理复杂图像理解任务时的增强能力。

2025-04-14 00:54:59 49

原创 点云模型专栏(一)概述、特性、存储格式、数据集

点云数据主要是由激光雷达扫描仪进行扫描采集得到的,从本质上来讲是点云是3D空间中无序、无结构的海量数据点的集合,每个点表达目标空间分布和目标表面特性。比如说,扫描某建筑物,得到的每个虚拟的数据点将代表窗户、楼梯、墙壁等任何表面上的真实的点,且包含了如三维坐标、颜色、强度值和入射方向等属性信息。点云数据的获取不仅只有激光雷达扫描这一种方式,还可以利用RGB-D相机同时获取多帧彩色图像和深度图,再利用相机的参数间接生成点云。

2025-04-14 00:40:27 738

原创 3D点云数据分析与处理-传统方法与深度学习

基于3D视觉的新兴应用场景蓬勃发展,3D点云越来越受到人们的广泛关注。点云有着广泛的应用领域包括机器人技术、3D图形、自动驾驶、虚拟现实(AR/VR/MR)等。为了跟上不断增长的应用需要,研究和开发有效存储、处理的相关算法来处理点云的意义正显著上升。传统的分析算法处理点云,主要侧重于对点的局部几何特征进行编码。深度学习在图像数据处理领域取得了巨大的成功,这使得研究相应的点云神经网络结构有极其现实的迫切需求。当前的研究热点主要涉及发展用于各种点云处理任务的深度神经网络。

2025-04-14 00:36:59 782

原创 点云数据(Point Cloub Data)学习笔记

点云是指目标表面特性的海量点集合。通过测量仪器得到的物体外观表面的点数据集合就称之为点云。请注意:上面虽然使用的是 “物体表面”,但其实暗含的意思为 “物体空间表面”。PCD 格式标准是为了更好支持 PCL 库而诞生的。PCL库是什么?PCL(Point Cloud Library) 是一个大型跨平台开源的 C++ 编程库。该库实现了大量点云相关的通用算法和高效数据结构。涉及到点云获取、过滤、分割、配准、检索、特征提取、识别、追踪、曲面重建、可视化等。结合点云数据的一些特征,又产生了以下一些名词概念。

2025-04-14 00:35:18 807

原创 3D点云之点云数据介绍

在传统的几何算法中,点云补全主要是基于点云的形状、结构和拓扑等特征进行分析和处理,以构建合理的模型。传统的基于模型匹配的方法通常需要先构建目标物体的模型,并将其与采集的点云数据进行匹配,从而识别出目标物体的位置和姿态。3.目标检测与分类:利用深度学习等方法来对点云数据进行目标检测和分类,目前常用的方法包括基于2D投影的方法、基于3D框架的方法和基于点云分割的方法等。2.点云特征提取:通过点云的几何和拓扑属性来提取特征,常见的方法包括基于形状的特征、基于法向量的特征、基于表面曲率的特征等。

2025-04-14 00:33:22 794

原创 图像分割综述之语义分割

图像分割是将一幅图像分成多个子区域的过程,使得每个子区域内的像素具有相似的特征。图像分割是计算机视觉领域中的一个基础问题,被广泛应用于医学影像分析、目标跟踪、自动驾驶等领域。语义分割是图像分割的一种特殊形式,即将图像中的每个像素划分到一组预定义的语义类别中,与物体实例无关。因此,语义分割可以被视为图像分类问题的推广,而不是像素级别的物体检测或实例分割问题。语义分割是许多计算机视觉任务中的基础,如自动驾驶、智能视频监控等领域,因为它能够帮助计算机理解图像中不同区域的语义含义,从而做出更准确的判断和决策。目前,

2025-04-14 00:25:32 577

原创 语义分割(Semantic Segmentation)【截至2025年4月】

(Semantic Segmentation)是计算机视觉中的核心任务,旨在为图像中的每个像素分配一个语义类别标签,实现像素级别的语义理解。

2025-04-14 00:10:30 804

原创 目标检测(Object Detection)简介

目标检测(Object Detection)的任务是找出图像中所有感兴趣的目标(物体),确定它们的类别和位置,是计算机视觉领域的核心问题之一。由于各类物体有不同的外观、形状和姿态,加上成像时光照、遮挡等因素的干扰,目标检测一直是计算机视觉领域最具有挑战性的问题。计算机视觉中关于图像识别有四大类任务:(1)分类-Classification:解决“是什么?”的问题,即给定一张图片或一段视频判断里面包含什么类别的目标。(2)定位-Location:解决“在哪里?”的问题,即定位出这个目标的的位置。

2025-04-13 23:46:40 1223

原创 目标检测(Object Detection)的评测指标

判断检测框是否有效(通常阈值设为0.5),用于计算TP/FP。:预测框与真实框的重叠程度,计算为两者的交集面积除以并集面积。(注:目标检测中TN通常不关注,因负样本量过大)预测框与真实框的并集面积。预测框与真实框的交集面积。

2025-04-13 23:40:01 469

原创 Swift:一站式大模型训练工具链,让模型进化更轻松

模型的进化离不开工具链的支持与助力,未来SwanLab也将与更多工具伙伴一起,为世界AI开发者提供更好的体验,提高模型进化效能。

2025-04-05 18:15:42 72

原创 LLM关键函数对比:训练阶段的model(),推理阶段的model(),推理阶段的model.generate()

以下是针对的详细分阶段解释与代码示例,涵盖训练、手动生成、Logits 提取和自动生成,输入均为,目标输出为。代码包含内部实现的简化逻辑。

2025-03-12 17:01:19 109

原创 开源中文DeepSeek-R1(满血)蒸馏数据集-110K

其实数据蒸馏之前就常用,之前蒸馏GPT4,现在改成蒸馏DeepSeek-R1了。DS就像是一条鲇鱼,搅浑了开源和闭源这摊死水,前两天百度先宣布免费,再宣布开源。OpenAI同时也是坐不住了,先开发o1的思维链(总结版),后面也不挤牙膏了,说马上来GPT4.5和GPT5。Grok3明天也来了,所以开源越来越好啦~~开的这个数据集会有些不完善的地方,毕竟没搞那么久,但希望大家不喜勿喷!

2025-03-11 00:41:43 112

原创 图解大模型RLHF系列之:人人都能看懂的PPO原理与源码解读

智能体(Agent)与环境(Environment)强化学习中两个实体的交互:状态空间S:S即为State,指环境中所有可能状态的集合动作空间A:A即为Action,指智能体所有可能动作的集合R即为Reward,指智能体在环境的某一状态下所获得的奖励。在 t 时刻,环境的状态为 St ,达到这一状态所获得的奖励为 Rt智能体观测到 St 与 Rt ,采取相应动作 At智能体采取 At 后,环境状态变为 St+1 ,得到相应的奖励 Rt+1。

2025-03-10 23:05:31 581

原创 RLHF几大常用框架实践对比(trl、deepspeedchat、colossalaichat)

其实SFT其实也展现出了很不错的性能,但是从实践上看,例如moss要做到和人类比较好的对齐,光微调的数据就达到100w的级别,这个级别的高质量数据收集起来代价还是比较高的,而后面RL的步骤,从实践结果来看,它能够用少量的数据让模型在对齐上的效果和泛化性达到一个新的高度。这篇文章里,提到了很多PPO的优化方法,里面我只试了一部分,目前来看,对优势值的正则化是有效的,能够让actor的loss变得稳定,如果是分布式的场景,记得要同步后再做正则,这块Trlx有相关的实现。我实践经验上看,多次迭代效果是更好的。

2025-03-10 23:04:06 751

原创 windows安装Mobaxterm(非portable版)后,本地打开终端的默认位置

C:\Users\Admin\AppData\Roaming\MobaXterm\slash\mx86_64b

2025-03-07 18:16:40 189

原创 利用WeNet进行Squeezeformer 训练

通过以上步骤,可高效地在WeNet框架中完成Squeezeformer模型的训练与部署。具体细节需参考官方文档及论文实验设置。

2025-03-04 23:22:38 43

原创 Conformer、Squeezeformer、Zipformer 对比分析

ConformerSqueezeformer选择建议:选择建议: Conformer (2020)Squeezeformer (2022)Zipformer (2024)选择建议:

2025-03-04 23:01:40 109

原创 自动语音识别(ASR)模型全览

场景适配建议移动端/嵌入式:Zipformer、Moonshine、QuartzNet(低功耗、轻量化)。实时交互:Squeezeformer、Transformer Transducer(低延迟)。多语言/方言:Whisper、腾讯云ASR、Paraformer(支持热词定制)。企业级服务:FunASR、WeNet(高精度、易部署)。学术研究:Kaldi、ESPnet(灵活可定制)。

2025-03-04 22:49:56 243

原创 Bert预训练语言模型汇总

同时要注意,BART在进行翻译任务时训练分为两步,首先要对BART的大部分参数进行固定,只训练额外编码器和BART编码器中第一层的部分参数,然后再通过少量的epoch中微调整个模型。其中被掩码连续token的长度k是一个超参数,如果k=1,即只掩码一个token,那么它将和BERT模型相似,如果k=m(m为输入句子的长度),那么该模型Encoders输入全是mask,模型架构与GPT相似,所有作者通过实验,将k从10%到90%(step为10%)各自训练了模型,发现当k=50%时模型效果最好。

2025-03-04 14:58:06 439

原创 【李开复】2025最新演讲,预判AI发展趋势,最新的AI会带来重大影响

【李开复】2025最新演讲,预判AI发展趋势,最新的AI会带来重大影响

2025-03-03 23:20:15 206

原创 多轮带RAG的SFT数据构造挑战

只有在精心挑选、合理标注、动态迭代的前提下,多轮 RAG 模型才能有效学习到如何在复杂对话中准确检索外部知识、整合上下文信息并生成高度可靠、符合用户需求的回答,从而在实战中真正发挥其强大潜能。在组织多轮带 RAG 的数据时,建议将对话、检索和回答三部分以统一结构显式地展现出来,方便后续进行高效筛选与 Fine-tuning。这种结构不仅让数据更具可读性,还能够让模型在 Fine-tuning 时“看到”清晰的输入输出映射关系:(对话上下文 + 检索到的文档) → 回答。

2025-03-03 19:22:20 59

原创 大模型的结构化裁剪 、非结构化裁剪

以**规则的结构单元(如整层、通道、滤波器)**为剪枝对象,直接移除整个模块。例如,删除某层中50%的滤波器。:移除Transformer中的注意力头、MLP层或整个模块(如LLM-Pruner)。:保持模型结构规则性,剪枝后模型仍为稠密矩阵,可直接部署于通用硬件(如GPU)。RIA: Plug-and-Play: 一种高效的大型语言模型后训练剪枝方法。Flash-LLM:通过非结构稀疏性实现成本效益高且高效的大型生成模型推理。并非所有专家都是平等的:混合专家大型语言模型的高效专家剪枝和跳过。

2025-02-28 18:54:24 66

原创 编程能力暴涨!Anthropic 发布Claude 3.7 Sonnet与 Claude Code,实测效果惊艳

2025年2月25日,推出划时代的—— 全球首个混合推理模型,既能瞬间响应,又能通过“可见化思考”展现深度逻辑推演,开发者甚至可通过API精准控制其思考时长!同步亮相的命令行工具,以“终端协作代理”之姿颠覆开发流程,支持代码搜索、测试运行、提交等全栈操作,实测效率提升300%。并在 SWE-bench 与 TAU-bench 上取得好成绩。

2025-02-27 22:57:10 415

原创 【论文解读】Zephyr:无需人类标注,只使用AI偏好数据进行蒸馏式偏好对齐

看到Huggingface的一套,是个不错的学习材料,按图索骥追溯一下相关的论文。从而间接地与人类偏好对齐。

2025-02-25 09:05:56 74

原创 Visualize Llama Inference Using Single and MultiGPUs

Inference using multiple GPUs involves splitting weight matrices by rows and columns, followed by operations like all-reduce or gather. This technique is commonly referred to as Tensor Parallelism (TP).Below are two visualizations of the LLaMA 3.1 8B model

2025-02-19 22:25:49 40

原创 DeepScaleR-1.5B-Preview:1.5B模型通过RL就可以媲美o1

为了构建我们的训练数据集,我们收集了1984-2023年AIME问题和2023年之前的AMC问题,以及来自Omni-MATH和STILL数据集的问题,这些数据集涵盖了来自多个国家和国际数学竞赛的问题。为了解决这一问题,我们利用了一个蒸馏模型,并引入了一种新颖的迭代扩展强化学习方案,将计算需求降低到仅3800小时的A100 GPU计算时间,实现了18.42倍的计算量减少,同时仅用一个15亿参数的模型就超越了OpenAI的o1-preview的性能。我们坚信,普及RL扩展是一个社区的努力,欢迎开源贡献和赞助!

2025-02-18 22:53:09 89

原创 模型“对齐”人类偏好:有帮助(helpful)、诚实(honest)、无害(harmless)

模型“对齐”人类偏好,尤其是围绕“有帮助(helpful)”、“诚实(honest)”和“无害(harmless)”这三个核心原则,是确保人工智能系统符合人类价值观、伦理标准和社会需求的关键过程。:使用BLEU/ROUGE(帮助性)、事实一致性分数(诚实性)、毒性分类器(无害性)进行自动评估。:过度过滤可能导致回避必要讨论(如性别平等议题),需通过细粒度策略区分“有害”与“敏感但合理”。:若用户问“新冠是否通过5G传播”,模型应回答“无科学依据”,并引用世卫组织的辟谣声明。

2025-02-18 21:46:17 69

原创 大规模语言模型(LLMs)指令微调一: FLAN

这篇论文和instruct-GPT的微调指令数据集的不同在于:该文的微调数据集来自于通用的NLP任务,通过指令模板改造输入输出的格式得到。之前的工作表明在非CoT任务上进行指令微调可以提高未见的非CoT任务的能力,但是本文发现这会导致模型在CoT任务上性能的下降。此外,与没有进行微调的模型相比,指令微调的改进幅度似乎并没有减少,这表明指令微调对未来的模型可能会继续有意义;之前的工作表明在非CoT任务上进行指令微调可以提高未见的非CoT任务的能力,但是本文发现这会导致模型在CoT任务上性能的下降。

2025-02-18 18:29:12 45

原创 Que2Search(上):FaceBook新一代query搜索召回模型分享

笔者一直强调,看一篇paper或者一个新模型,最有价值的东西并不是模型的结构或技术,而是作者所遇到的场景、问题和需求。模型和技术只是作者应对这些问题所给出的方案,知晓问题才能知晓如何解决问题,这些问题很有可能你在业务中也遇到了只是你甚至都没发现它们的存在。Que2Search结构图我们先看看Que2Search的整体架构,仍然是经典的双塔结构,query塔侧的输入信息相对较少,结构也比较简单。作者主要在document塔侧下了很大的功夫,这些都是为了解决2.3中提到的商品理解的问题。

2025-02-16 16:40:53 1038

原创 QA处理训练数据常见的4种方法

此外,字节级(Byte-level)BPE 通过将字节视为合并的基本符号,用来改善多语言语料库(例如包含非ASCII 字符的文本)的分词质量。GPT-2、BART 和LLaMA 等大语言模型都采用了这种分词方法。原始LLaMA 的词表大小是32K,并且主要根据英文进行训练,因此,很多汉字都没有直接出现在词表中,需要字节来支持所有的中文字符,由2 个或者3 个Byte Token 才能拼成一个完整的汉字。

2025-02-16 15:02:59 1028

原创 Fish Speech 1.5:全球领先的多语言 TTS 工具!可本地部署“调教”。

FishSpeech是由 FishAudio 团队开发的一款TTS语音生成工具,与ChatTTS属于同时期(2024年6-7月)开源的超热门的TTS项目。而说起其团队成员,更是GitHub上的各类SVC大佬,也就是专做AI声音克隆的教父们。FishSpeech 在我刚开始看到它的时候,在GitHub上就有了3.1k Star量,如今5个月过去了,已经揽获了15.1k Star量。可见用户增长之快,因为确实好用,质量也上乘。FishSpeech 训练不像需要填写一大堆训练参数,有时候还需要进行微调。

2025-02-15 21:01:22 550

原创 F5-TTS本地部署教程:最强开源语音克隆TTS,极速复刻你的声音!

F5-TTS 是由上海交通大学、剑桥大学和吉利汽车研究院(宁波)有限公司于 2024 年共同开源的一款高性能文本到语音 (TTS) 系统,它基于流匹配的非自回归生成方法,结合了扩散变换器DiT) 技术。。这一系统能够在没有额外监督的情况下,通过零样本学习快速生成自然、流畅且忠实于原文的语音。F5-TTS 支持多语言合成,包括中文和英文,且能在长文本上进行有效的语音合成。此外,F5-TTS 还具备情感控制功能,能根据文本内容调整合成语音的情感表现,并支持速度控制,允许用户根据需要调整语音的播放速度。

2025-02-15 20:58:08 790

原创 (2024)endnote迁移至zotero,包括题录和PDF附件

*备注:**由于导入到zotero时,同一xml文件的会放在同一个分组里,个人推荐如果分组不是特别多的情况下,逐个分组导出,然后将xml文件命名为分组的名称。如果你第一步在Endnote导出的时候,将不同的组分别导出并重命名,导入完之后,Zotero应该会保持一样的分组。直接将上述xml文件导入至zotero,只会导入题录,而不会导入附件。原因是,zotero无法识别xml文件中指明附件地址的url。文件夹下的xml文件,勾选将导入的分类和条目放入新分类和复制文件到Zotero存储文件夹,导入。

2025-02-15 16:59:12 1056

原创 KTransformers:一个灵活的框架,用于体验前沿的 LLM 推理优化

通过用一行代码实现和注入一个优化模块,用户可以访问与 Transformers 兼容的接口、符合 OpenAI 和 Ollama 的 RESTful API,甚至还有一个简化的类似 ChatGPT 的网页用户界面。要使用提供的内核,用户只需创建一个基于 YAML 的注入模板,并在使用 Transformers 模型之前添加对 `optimize_and_load_gguf` 的调用。如果您需要其他功能,请告诉我们。遍历模型的所有子模块,匹配您在 YAML 规则文件中指定的规则,并用指定的高级模块替换它们。

2025-02-15 13:25:10 691

原创 大模型:精度调试

大语言模型的成功证明了增大神经网络的参数规模能够提升模型性能,但同时也增大了对加速器内存、算力及通信传输带宽的要求。为了减少内存占用加快收敛速度,大模型训练往往采用16位半精度浮点格式,例如float16或者bfloat16。大量实验已经证明可以使用半精度浮点数训练大模型,也不会对模型性能带来显著影响,相反低精度计算作为正则化的一部分,反而能够给模型泛化能力带来好处。但目前低精度训练对模型的统计学影响也并不那么清晰,所以整个训练过程单纯使用低精度浮点运算非常具有挑战性。

2025-02-12 16:16:43 63

原创 MINT-1T:拥有一万亿Token和34亿张图像的多模态数据集

通过以上分析,可以看出 MINT-1T 数据集在多样性、质量和规模上都显著优于现有的开源数据集,尤其在科学和技术领域表现突出。基于 MINT-1T 训练的模型在多模态任务中的表现优越,为未来的多模态研究提供了坚实的基础和丰富的资源。MINT-1T:拥有一万亿Token和34亿张图像的多模态数据集。

2025-02-12 12:19:40 73

原创 【LLM Pretrain data】DCLM

我们引入了用于语言模型的DataComp (DCLM),这是一个用于受控数据集实验的测试平台,旨在提升语言模型的性能。作为DCLM的一部分,我们提供了从Common Crawl中提取的240T tokens的标准化语料库,基于OpenLM框架的有效预训练方案,以及一个包含53项下游评估的广泛测试套件。参与DCLM基准测试的研究人员可以在模型规模从412M到7B参数的范围内,进行诸如去重、过滤和数据混合等数据整理策略的实验。作为DCLM的基线,我们进行了大量实验,

2025-02-12 12:15:39 43

原创 深入解析TRL模型:Hugging Face的强化学习Transformer语言模型

TRL(Transformer Reinforcement Learning)是由Hugging Face推出的一款创新性语言模型,它巧妙地融合了深度学习与强化学习的技术优势,旨在通过动态的学习机制来增强模型的语言理解和生成能力。本文将深入探讨TRL模型的工作原理,并通过具体的代码示例展示其在实际应用中的强大功能。在当今的人工智能领域,Transformer架构与强化学习技术分别代表了自然语言处理与决策制定过程中的两大重要突破。

2025-02-11 21:33:52 239

《Approaching (Almost) Any Machine Learning Problem》

《Approaching (Almost) Any Machine Learning Problem》

2023-09-13

中文小说短句序列文本复述数据集

中文小说短句序列文本复述数据集

2023-07-29

时间序列预测-第六届全国工业互联网数据创新应用大赛:工业生产反应装置的建模预测

第六届全国工业互联网数据创新应用大赛:工业生产反应装置的建模预测

2023-02-26

clustering-test-data

文本聚类测试数据

2022-11-17

stop-words.txt

stop_words.txt

2022-11-17

strawberry-perl-5.10.1.0.msi

strawberry-perl-5.10.1.0.msi

2022-02-19

strawberry-perl-5.10.1.0.msi

strawberry-perl-5.10.1.0.msi

2022-02-19

英文单词拼写混淆集:spell-errors.txt

英文单词拼写混淆集:spell-errors.txt

2021-04-05

带有词频的词典库:vocab.txt

带有词频的词典库:vocab.txt

2021-04-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除