自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(57)
  • 收藏
  • 关注

原创 【学术教程】如何通过GitHub联系项目源代码作者

在使用或导入GitHub上的开源项目时,我们有时会遇到代码问题无法解决,这时候联系项目的源代码作者是一种有效的解决方式。以下是一种简单的联系GitHub项目作者的方法。

2024-09-04 13:53:54 209

原创 【问题解决】Windows微软拼音的中文状态打不出来顿号

不知道键盘乱按了什么地方,突然|\按键打不出顿号了,打出来的其他符号也都变成了英文状态。起初还以为是半角、全角的缘故。按住ctrl+句号,切换中英文符号。

2024-08-29 10:17:42 214

原创 【大模型实战】基于大模型的中国历史智能助手项目分享:史小白

在当下的AI热潮中,我完成了一个基于大模型的项目——。可用于帮助用户探索和学习中国历史。项目基于通过整合现代人工智能技术,史小白致力于为历史爱好者提供一个便捷的学习平台。在我的B站视频【】中,我详细展示了项目架构、功能模块以及实际运行效果。希望通过这个视频,能够启发更多开发者利用AI技术做出有趣的项目。欢迎大家观看【大模型项目】史小白——中国历史智能助手。

2024-08-27 17:32:42 523

原创 【书生大模型实战】L2-茴香豆:企业级知识问答工具实践闯关任务

茴香豆是由书生·浦语团队开发的一款开源、专门针对国内企业级使用场景设计并优化的知识问答工具。在基础 RAG 课程中我们了解到,RAG 可以有效的帮助提高 LLM 知识检索的相关性、实时性,同时避免 LLM 训练带来的巨大成本。在实际的生产和生活环境需求,对 RAG 系统的开发、部署和调优的挑战更大,如需要解决群应答、能够无关问题拒答、多渠道应答、更高的安全性挑战。因此,根据大量国内用户的实际需求,总结出了三阶段Pipeline的茴香豆知识问答助手架构,帮助企业级用户可以快速上手安装部署。茴香豆特点。

2024-08-27 12:55:06 705

原创 【书生大模型实战】L2-MindSearch CPU-only 版部署

随着硅基流动提供了免费的 InternLM2.5-7B-Chat 服务(免费的 InternLM2.5-7B-Chat 真的很香),MindSearch 的部署与使用也就迎来了纯 CPU 版本,进一步降低了部署门槛。那就让我们来一起看看如何使用硅基流动的 API 来部署 MindSearch 吧。

2024-08-22 16:16:14 699

原创 【实战营彩蛋】MindSearch 快速部署(InternStudio 版)

选择 InternStudio 算力平台 50% A100 的 cuda 12.2 的开发机,并使用ssh vscode 远程连接到开发机。MindSearch是基于LLM Web搜索引擎的多智能体框架(如 Perplexity.ai Pro和SearchGPT)比如,对于多步骤的复杂问题,模型能够分析用户需求,先搜索嫦娥 6 号的技术难点、再针对每一个技术难点搜索对应的解决方案,再从任务目标、技术手段、科学成果、国际合作 4 个方面对比阿波罗 11 号登月计划,最后总结我国探月成功的贡献。

2024-08-20 10:43:35 854

原创 【书生大模型实战】InternVL 微调实践闯关任务

InternVL 是一种用于多模态任务的深度学习模型,旨在处理和理解多种类型的数据输入,如图像和文本。它结合了视觉和语言模型,能够执行复杂的跨模态任务,比如图文匹配、图像描述生成等。通过整合视觉特征和语言信息,InternVL 可以在多模态领域取得更好的表现。对于InternVL这个模型来说,它vision模块就是一个微调过的ViT,llm模块是一个InternLM的模型。对于视觉模块来说,它的特殊之处在Dynamic High Resolution。

2024-08-19 13:46:46 837

原创 【书生大模型实战】L2-LMDeploy 量化部署实践闯关任务

注释:实验室提供的环境为虚拟化的显存,nvidia-smi是NVIDIA GPU驱动程序的一部分,用于显示NVIDIA GPU的当前状态,故当前环境只能看80GB单卡 A100 显存使用情况,无法观测虚拟化后30%或50%A100等的显存情况。模型在运行时,占用的显存可大致分为三部分:模型参数本身占用的显存、kv cache占用的显存,以及中间运算结果占用的显存。让我们回到LMDeploy,在最新的版本中,LMDeploy使用的是AWQ算法,能够实现模型的4bit权重量化。输入以下指令,执行量化工作。

2024-08-15 00:00:24 807

原创 【书生大模型实战】L2-Lagent 自定义你的 Agent 智能体

Lagent 是一个轻量级开源智能体框架,旨在让用户可以高效地构建基于大语言模型的智能体。同时它也提供了一些典型工具以增强大语言模型的能力。Arxiv 搜索Bing 地图Google 学术搜索Google 搜索交互式 IPython 解释器IPython 解释器PPTPython 解释器在本节中,我们将带大家基于 Lagent 自定义自己的智能体。Lagent 中关于工具部分的介绍文档位于动作 — Lagent。继承BaseAction类实现简单工具的run方法;

2024-08-13 21:00:23 890

原创 【模型结构】LLaMA: Open and Efficient Foundation Language Models

这项工作的重点是训练一系列语言模型,通过训练比通常情况下更多的词块,在各种推理预算下实现最佳性能。由此产生的模型称为 LLaMA(7B-65B)。

2024-08-08 19:58:39 961

原创 【大模型学习】多模态大模型进行偏好优化

训练模型以理解并预测人类偏好是一项复杂的任务。传统方法如SFT(监督微调)通常需要较高的成本,因为这些算法需要对数据进行特定标签的标注。偏好优化(Preference Optimization)作为一种替代方案,可以简化这一过程并提供更准确的结果。通过对候选回答的对比和排序,而不是赋予固定的标签,偏好优化能够更高效地捕捉人类偏好的细微差别。虽然偏好优化已经在大语言模型中广泛使用,但现在它也可以应用于视觉语言模型(VLM)。得益于。

2024-08-08 10:41:16 840

原创 【大模型学习】快速下载大模型权重和评估大模型占用显存

首先,我们需要设置环境变量以使用镜像站点加速下载。这里repo_id可以直接在Hugging Face官网上复制得到:local_dir就是保存在自己本地的文件夹,force_download就是支持断点续传,避免中途因为网络断了,导致要重新下载。此外,我们可以通过和参数允许或者忽略某些文件以支持断点续传和正则匹配,因为大模型的权重一般是分成了好几个包,如果同时下载可能会导致网速变慢,所以我们可以设置这个参数,选择先下载一部分的包。

2024-08-07 14:27:45 696

原创 【书生大模型实战】L1-OpenCompass 评测 InternLM-1.8B 实践

OpenCompass2.0,又称“司南”,是由上海人工智能实验室科学家团队正式发布了大模型开源开放评测体系。其主要是用于为大语言模型、多模态模型等提供一站式评测服务。开源可复现:提供公平、公开、可复现的大模型评测方案全面的能力维度:五大维度设计,提供 70+ 个数据集约 40 万题的的模型评测方案,全面评估模型能力丰富的模型支持:已支持 20+ HuggingFace 及 API 模型分布式高效评测:一行命令实现任务分割和分布式评测,数小时即可完成千亿模型全量评测。

2024-08-04 14:15:07 977

原创 【书生大模型实战】L1-XTuner 微调个人小助手认知任务

当我们在测试完模型认为其满足我们的需求后,就可以对模型进行量化部署等操作了,这部分的内容在之后关于 LMDeploy 的课程中将会详细的进行讲解,敬请期待后续的课程吧!对于全量微调的模型(full)其实是不需要进行整合这一步的,因为全量微调修改的是原模型的权重而非微调一个新的 Adapter ,因此是不需要进行模型整合的。比如我们这里微调的是书生·浦语的模型,我们就可以匹配搜索。,在使用前我们需要准备好三个路径,包括原模型的路径、训练好的 Adapter 层的(模型格式转换后的)路径以及最终保存的路径。

2024-08-02 09:54:53 577

原创 【书生大模型实战】L1-Llamaindex RAG实践

什么是RAGLLM会产生误导性的 “幻觉”,依赖的信息可能过时,处理特定知识时效率不高缺乏专业领域的深度洞察,同时在推理能力上也有所欠缺。正是在这样的背景下,检索增强生成技术(Retrieval-Augmented Generation,RAG)应时而生,成为 AI 时代的一大趋势。RAG 通过在语言模型生成答案之前,先从广泛的文档数据库中检索相关信息,然后利用这些信息来引导生成过程,极大地提升了内容的准确性和相关性。RAG 有效地缓解了幻觉问题,提高了知识更新的速度,并增强了内容生成的可追溯性。

2024-08-01 22:34:03 833

原创 【书生大模型实战】L1-LangGPT结构化提示词编写实践

近期相关研究发现,LLM在对比浮点数字时表现不佳,经验证,internlm2-chat-1.8b (internlm2-chat-7b)也存在这一问题,例如认为13.8

2024-07-30 20:21:05 300

原创 【书生大模型实战】L1-8G 显存玩转书生大模型 Demo

LMDeploy 已经支持了 InternLM-XComposer2 系列的部署,但值得注意的是 LMDeploy 仅支持了 InternLM-XComposer2 系列模型的视觉对话功能。LMDeploy 也已经支持了 InternVL2 系列模型的部署,让我们一起来使用 LMDeploy 部署 InternVL2-2B 模型。接下来,我们使用 LMDeploy 启动一个与 InternLM-XComposer2-VL-1.8B 模型交互的 Gradio 服务。首先,创建一个目录,用于存放代码。

2024-07-30 12:37:19 839

原创 【书生大模型实战】L1-书生大模型全链路开源体系

大模型已经成为发展AGI的重要途径,传统的专用模型是针对特定任务,一个模型解决一个问题,比如ImageNet竞赛中涌现的分类模型,AlphaFold等等。而通用模型旨在利用一个模型完成All任务,对应多种模态。比如GPT4通过Prompt实现。

2024-07-30 00:30:23 356

原创 【模型结构】LLaMA: Open and Efficient Foundation Language Models

这项工作的重点是训练一系列语言模型,通过训练比通常情况下更多的词块,在各种推理预算下实现最佳性能。由此产生的模型称为 LLaMA(7B-65B)。

2024-07-29 10:29:27 647

原创 【大模型学习】利用最新版Langchain-Chatchat搭建个人知识库问答LLM

如果存在此选项,则使用它。修改配置文件,需要根据步骤2. 模型推理框架并加载模型中选用的模型推理框架与加载的模型进行模型接入配置,具体参考model_settings.yaml中的注释。默认知识库位于CHATCHAT_ROOT/data/knowledge_base,如果你想把知识库放在不同的位置,或者想连接现有的知识库,可以在这里修改对应目录即可。-i, --incremental:本地文件夹中存在文件的增量更新矢量存储,数据库中不存在。--trim-db:删除本地数据库中不存在的文档文件夹中的文档。

2024-07-19 15:59:28 1202 7

原创 【书生大模型实战】L0-Git 基础知识

每位参与者提交一份自我介

2024-07-16 10:13:50 299

原创 【书生大模型实战】L0-Python

【书生大模型实战】L0-Python。

2024-07-16 09:24:19 263

原创 【书生大模型实战】L0-Linux

【书生大模型实战】L0-Linux

2024-07-15 18:11:00 694

原创 【开放词汇分割】Side Adapter Network for Open-Vocabulary Semantic Segmentation

Side Adapter Network (SAN) 是一个端到端的框架,旨在充分利用CLIP模型在开放词汇语义分割中的能力。SAN由一个轻量级的视觉Transformer实现,可以利用CLIP的特征,并且有两个输出:掩码提案和用于掩码识别的注意力偏差。这些注意力偏差应用于CLIP的自注意力机制,以识别掩码提案的类别。在实践中,将浅层 CLIP 层的特征融合到 SAN 中,并将注意力偏差应用于更深的 CLIP 层以进行识别。通过这种单前向设计,可以最大限度地降低 CLIP 模型的成本。SAN的详细架构。

2024-07-01 17:05:59 730

原创 【机器学习】gumbel softmax的介绍

Gumbel-Softmax 是一种技术,用于在离散选择中引入可微分的近似。这对于需要在神经网络中进行离散采样(如分类任务或生成离散数据)而不破坏梯度计算非常有用。Gumbel-Softmax 可以看作是对经典的 Softmax 函数的一种扩展,结合了 Gumbel 噪声,用于逼近离散的 one-hot 向量,同时保持梯度的可计算性。在许多机器学习任务中,需要从一个离散的分布中采样。例如,在强化学习或生成模型中,可能需要从一组离散的动作或词汇中进行选择。

2024-06-25 18:49:11 1871 1

原创 【PyTorch函数解析】einsum的用法示例

einsum 是一个非常强大的函数,用于执行张量(Tensor)运算。它的名称来源于爱因斯坦求和约定(Einstein summation convention),在PyTorch中,einsum 可以方便地进行多维数组的操作和计算。在Transfomer中,einsum用的非常多,比如使用 einsum 实现自注意力机制中注意力权重的获取,也就是Q和K的内积:Q(Query):形状为 (batch_size, seq_len, d_k)

2024-06-25 18:27:48 945

原创 【开放词汇分割】GroupViT: Semantic Segmentation Emerges from Text Supervision

在视觉场景理解中,分组和识别是关键的任务,常见于目标检测和语义分割等应用。传统的深度学习方法通常依赖于像素级的标注,通过全卷积网络(Fully Convolutional Networks, FCNs)直接在输出层进行像素级的分类。然而,这些方法存在两个主要问题。

2024-06-25 00:06:13 992

原创 【多模态融合】IS-Fusion: Instance-Scene Collaborative Fusion for Multimodal 3D Object Detection

3D目标检测在自动驾驶和机器人等应用中是一个关键任务。尽管点云提供了关于3D空间的宝贵几何信息,但通常缺乏详细的纹理描述且分布稀疏,特别是在远距离场景中。为了克服这些限制,近期的趋势是通过融合点云和多视角图像的信息进行多模态3D目标检测。图像模态提供了详细的纹理和密集的语义信息,补充了稀疏的点云,从而增强了3D感知能力。

2024-06-04 00:50:10 1144

原创 【模型架构】学习最火热的Mamba、Vision Mamba、MambaOut模型

状态空间模型(State Space Model, SSM)是一种用于描述动态系统的数学模型,特别适用于时间序列分析和控制系统设计。它将系统的状态表示为一个状态向量,并通过状态方程和观测方程描述系统的动态行为和观测过程。因此,SSM是可以用于描述这些状态表示并根据某些输入预测其下一个状态可能是什么的模型,这就符合了作为深度学习模型基础架构的条件。SSM的计算示意图具体来说,可以用下面的公式描述上述过程:状态变量:描述系统当前状态的变量。状态变量通常是一个向量,包含系统当前时刻的所有信息。

2024-06-01 20:43:20 2675

原创 【模型架构】学习RNN、LSTM、TextCNN和Transformer以及PyTorch代码实现

在自然语言处理(NLP)领域,模型架构的不断发展极大地推动了技术的进步。从早期的循环神经网络(RNN)到长短期记忆网络(LSTM)、Transformer再到当下火热的Mamba(放在下一节),每一种架构都带来了不同的突破和应用。本文将详细介绍这些经典的模型架构及其在PyTorch中的实现,由于我只是门外汉(想扩展一下知识面),如果有理解不到位的地方欢迎评论指正~。个人感觉NLP的任务本质上是一个序列到序列的过程,给定输入序列,要通过一个函数实现映射,得到输出序列。

2024-05-31 20:25:32 1547 2

原创 【多模态融合】SparseFusion: Fusing Multi-Modal Sparse Representations for Multi-Sensor 3D Object Detection

自动驾驶汽车依靠激光雷达和摄像头等多个传感器来感知周围环境。然而,两个传感器获取的同一物理场景的表示通常存在显着差异,因为 LiDAR 传感器使用 360 度旋转捕获点云,而相机从没有深度感的透视图捕获图像。这阻碍了激光雷达和相机模式的有效和高效融合。为了应对这一挑战,提出了多传感器融合算法来寻找多模态数据之间的对应关系,将它们转换并融合到统一的场景表示空间中。

2024-05-27 22:24:02 646

原创 【模型架构】目标检测中的单阶段、两阶段、Anchor-Free和Anchor-based,以Faster-RCNN、YOLO、CornerNet、CenterNet为例

目标检测算法中,可以按照单阶段(One-Stage)和两阶段(Two-Stage)进行划分,也可以按照Anchor-Free和Anchor-based进行划分类型。不过,目前更流行的提法是后者。

2024-05-25 16:26:19 1914

原创 【问题解决】ImportError: generic_type: cannot initialize type “ExternalAllocator“

我的环境是Ubuntu20.04,Cuda版本是11.4,在复现OpenPCDet的时候遇到了下面问题:

2024-05-22 16:59:32 421

原创 【多模态融合】Cross Modal Transformer: Towards Fast and Robust 3D Object Detection

多传感器融合在自动驾驶系统中展示了其巨大优势。不同的传感器通常能提供互补的信息。例如,摄像头以透视视角捕捉信息,图像中包含丰富的语义特征,而点云则提供更多的定位和几何信息。充分利用不同传感器有助于减少不确定性,从而进行准确和鲁棒的预测。然而,由于不同模态的传感器数据在分布上的巨大差异,融合这些多模态数据一直是个挑战。当前的主流方法通常通过构建统一的鸟瞰图(BEV)表示来进行多模态特征融合,或通过查询令牌(Transformer架构)来实现多模态融合。

2024-05-20 17:43:38 1482

原创 【学术工具】Ubuntu环境利用bypy进行无图形化快速下载文件

近日使用百度网盘下载东西的时候遇到了一个问题,Ubuntu环境不知道为什么一直登录不进百度网盘。找了很多攻略都没有解决问题,以此考虑另辟蹊径。

2024-05-18 11:25:29 312

原创 【3D目标检测】HENet: Hybrid Encoding for End-to-end Multi-task 3D Perception from Multi-view Cameras

目前的 3D 感知模型采用了大型图像编码器、高分辨率图像和长期时间序列输入,带来了显着的性能提升。然而,由于计算资源的限制,这些技术在训练和推理场景中通常不兼容。此外,现代自动驾驶系统更倾向于采用端到端的多任务3D感知框架,这可以简化整体系统架构并降低实现复杂度。然而,在端到端 3D 感知模型中联合优化多个任务时,任务之间经常会出现冲突。

2024-05-10 17:16:29 996

原创 【3D目标检测】常见相关指标说明

mean Average Precision(平均精度均值),它是目标检测和信息检索等任务中的重要性能指标。mAP 通过综合考虑精度和召回率来衡量模型的总体性能。

2024-05-07 13:33:31 1223 2

原创 【多模态融合】SparseLIF: High-Performance Sparse LiDAR-Camera Fusion for 3D Object Detection

本文介绍了 SparseLIF,这是一种高性能完全稀疏多模态 3D 物体检测器,其性能优于所有其他密集对应检测器和稀疏检测器。 SparseLIF 通过在查询生成、特征采样和多模态融合三个方面增强丰富 LiDAR 和相机表示的感知来弥补性能差距。

2024-04-29 14:09:43 1052

原创 【3D目标检测】Sparse4D: Multi-view 3D Object Detection with Sparse Spatial-Temporal Fusion

本文贡献:(1)提出Sparse4D是第一个具有时域融合的稀疏查询多视图3D检测算法;(2)提出了一种可变形的4D聚合模块,可以灵活地完成多维(点、时间戳、视图和比例)特征的采样和融合。(3)引入了深度重加权模块,以缓解基于图像的 3D 感知系统中的不良问题。(4)在nuScenes 数据集上,Sparse4D优于所有现有的稀疏算法和大多数基于 BEV 的算法,并且在跟踪任务上也表现良好。

2024-04-23 17:36:39 1908

原创 【多模态融合】BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird‘s-Eye View Representation

自动驾驶系统上往往部署了多个传感器,例如,Waymo 的自动驾驶汽车有 29 个摄像头、6 个雷达和 5 个激光雷达。不同的传感器提供互补信号:例如,摄像头捕获丰富的语义信息,LiDAR 提供准确的空间信息,而雷达提供即时速度估计。因此,多传感器融合对于准确可靠的感知具有重要意义。

2024-04-18 18:32:51 967

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除