- 博客(119)
- 资源 (10)
- 收藏
- 关注
原创 生成式语言模型技术栈
生成式语言模型的技术栈涵盖了从基础模型开发到优化、推理、应用的完整流程。等模型继续主导生成任务,等优化技术推动大模型在资源受限环境中的应用。与此同时,RAG技术通过结合检索增强模型生成能力,而多模态生成和跨模态技术进一步扩展了生成式AI的应用场景。
2024-09-20 14:19:41 917
原创 大数据基础架构技术栈一览
上述大数据技术栈适合自托管和私有化部署的企业环境,涵盖了数据采集、存储、处理、分析、治理等多个环节。Apache Hadoop生态仍然是大数据存储和处理的基石,而随着实时流处理、分布式查询和机器学习技术的成熟,等工具逐渐成为主流。此外,容器化技术(如Kubernetes)和数据编排工具(如Airflow、Dagster)也提升了大数据集群的灵活性和自动化程度。在数据安全和合规方面,和为大数据平台提供了完善的权限控制和数据治理解决方案。
2024-09-20 14:07:42 699
原创 BGE-M3 一个多功能、多语言、多粒度的语言向量模型
密集检索: 通过将文本映射到单一嵌入向量进行检索,例如 DPR、BGE-v1.5。稀疏检索(词汇匹配): 通过计算文本中出现的词元权重,常用模型如 BM25、unicoil、splade。多向量检索: 使用多个向量来表示文本,例如 ColBERT。
2024-09-13 17:22:18 748
原创 在高质量视频生成文本、图像生成文本的GLM-4V-Plus技术加持下医疗未来的方向
人工智能的进步为医疗领域带来了巨大的变革,尤其是视频生成文字、图片生成文字和医学统计数据生成文字等技术的应用。这些技术使得我们能够更全面地利用大数据来辅助诊断,为患者提供更加精确和个性化的医疗服务。
2024-08-30 19:15:58 807 1
原创 LangChain 一个面向构建基于大语言模型(LLM)的应用程序的框架
LangChain 是一个强大的框架,旨在扩展语言模型的能力,并将其应用到更复杂和多样化的任务中。通过其声明式的链、代理系统以及与外部工具的深度集成,LangChain 提供了构建基于 LLM 应用的全面解决方案。无论是自动化助手、问答系统,还是复杂的文档处理和知识管理,LangChain 都能够为开发者提供强大的工具和灵活的工作流。
2024-08-29 14:18:10 1043
原创 做大模型 千万别买苹果笔记本电脑
256-bit显存位宽,16GB GDDR6X显存,显存频率:22.4GHz。- 384-bit显存位宽,24GB GDDR6X显存,显存频率:21GHz。- 384-bit显存位宽,24GB GDDR6X显存,显存频率:21GHz。- 256-bit显存位宽,16GB GDDR6X显存,显存频率:23GHz。- 256-bit显存位宽,16GB GDDR6X显存,显存频率:21GHz。- 核心频率:2235MHz,加速频率:2520MHz。- 核心频率:2280MHz,加速频率:2520MHz。
2024-08-29 13:34:29 533
原创 起底 QAnything 解析 目录与第三方库和工具
QAnything 是一个多功能的 AI 系统,集成了大语言模型推理、OCR、信息检索、文档处理等功能,具备多模态数据处理的能力。它可以通过 Web API 提供问答、信息检索、文档解析等服务,支持文本、图像、PDF等多种输入形式,结合嵌入向量检索技术和在线搜索功能,能够为用户提供高效的知识问答与文档解析服务。
2024-08-29 11:32:56 1150
原创 Megatron 自然语言处理实战指南
这段描述详细介绍了一个代码库在高效训练大规模语言模型(如具有数千亿参数的模型)方面的能力,特别是在使用模型并行和数据并行技术的情况下。数据预处理是大规模语言模型训练的重要步骤,旨在将原始训练数据转化为模型可用的格式。在训练大型语言模型后,您可能需要在下游任务中进行评估或对模型进行微调。以下内容详细介绍了在这些场景中如何使用命令行参数和相关脚本。
2024-08-27 15:57:36 639
原创 paddle nlp 3.0 全面拥抱开源大模型
阿里云通义千问(Qwen2)是阿里云推出的一系列先进的大型语言模型,涵盖了从轻量级到超大规模的各种模型,包括混合专家模型(Mixture-of-Experts, MoE)。Qwen2系列在多个自然语言处理任务上展现了卓越的性能,并且在一些基准测试中表现出了对比前沿开源模型和商业模型的竞争力。Qwen2系列大模型覆盖了从轻量级到超大规模的各种应用需求,提供了强大的自然语言处理和生成能力。
2024-08-20 16:19:56 881
原创 适用于AIGC(人工智能生成内容)的服务器
构建一台适用于AIGC(人工智能生成内容)的服务器,要求硬件和软件的高度协同,以确保高效运行大型深度学习模型。AIGC服务器通常需要处理大规模的数据和复杂的计算任务,如训练和推理深度神经网络。
2024-08-19 17:51:07 812 1
原创 深入探索PDF源码解析:从PDF到Excel的数据统计分析找到正文
在数字化时代,数据已成为企业决策和业务运营的关键。PDF文档作为一种广泛使用的文件格式,其中蕴含着大量有价值的信息。然而,PDF文档的结构和格式使得直接对其进行数据提取和分析变得复杂。为了解决这个问题,我们采取了一种创新的方法:将PDF文档转换为HTML格式,再将HTML内容转换为Excel格式,以便进行深入的数据统计分析。在探索这一方法的过程中,我们发现了一些有趣的现象,尤其是在页眉页脚和页码信息的出现上。这些高频内容为我们提供了关于文档结构和内容的重要线索。
2024-08-13 18:45:17 1048
原创 基于商业化glm大模型接口的pdf目录提取实验
从指定目录中读取所有文本文件。使用智谱AI的API提取每个文本中的章节和子章节标题。将提取结果保存到JSON和CSV格式的文件中,便于后续分析和使用。如何判定生成结果好坏呢。判定生成结果的好坏是一个重要的步骤,尤其是在处理自动化生成内容时。通过以上方法,可以有效评估生成结果的好坏,确保其符合预期的格式和内容要求。验证生成的JSON是否有效、结构是否正确、内容是否准确和完整,以及结果的可读性和一致性,都是确保生成结果质量的重要步骤。
2024-08-08 13:14:11 1148
原创 AFAC2024-基于保险条款的问答 比赛日记 llamafactory qwen npu 910B1
在最近的AFAC2024竞赛中,我参与了基于保险条款的问答赛道。这是一次深度学习与自然语言处理的实战演练,旨在提升模型在复杂保险文本理解与问答生成方面的能力。本文将分享我的参赛过程,包括数据处理、模型选择、微调策略、实验观察及最终成果。
2024-07-19 14:05:05 2047 6
原创 探索NVIDIA A100 显卡 如何手搓A100显卡
NVIDIA A100 显卡(GPU)是基于NVIDIA的Ampere架构设计的高性能计算和人工智能任务的处理器。
2024-07-01 13:43:45 815
原创 LoRA与量化技术结合:QPiSSA方法降低量化误差的优势分析
因此,LoRA可以与量化技术结合使用,量化基本模型以提高前向传播的内存效率,同时保持LoRA适配器的全精度以保证反向传播的准确性。量化技术是指将矩阵的值域划分为若干连续区域,并将每个区域内的所有值映射为相同的“量化”值。残差模型Wres移除了大奇异值成分,使得Wres的分布比W更窄。QPiSSA(Quantized PiSSA)与QLoRA不同,不对基本模型W进行量化,而是对残差模型Wres进行量化。论文中图展示了不同矩阵(W和Wres)的奇异值分布,以及QLoRA和QPiSSA的误差矩阵和数据值分布。
2024-06-27 10:38:55 575
原创 生成式模型输出范围的可控性:指令控制和数据控制
大模型的输出内容范围控制是一个重要的问题,尤其在应用场景需要确保模型的输出在预期范围内。当前业界通常通过以下两种主要方法来实现输出范围的可控性:指令控制和数据控制。
2024-06-26 17:47:30 613
原创 多层感知器的进化:从基础到并行门控——深入探讨MLP变体的实现、优化与风险
通过考虑这些潜在隐患和注意事项,可以帮助学生更全面地理解每种MLP实现的优缺点,并在实际应用中做出更明智的选择。从原理上分析,这些MLP实现确实存在一些潜在的风险。理解这些原理上的风险可以帮助开发者和研究者在设计和应用这些MLP变体时更加谨慎,并采取适当的措施来缓解这些潜在问题。这个详细的教案涵盖了代码中的主要概念和实现细节。希望这个详细的对比能帮助您更好地理解这些MLP实现的差异。当然,我很乐意为您对比这四种MLP实现的差异。基础MLP (Mlp类) 是最简单的实现,其他所有实现都是在此基础上进行改进。
2024-06-21 14:16:20 1633
原创 FlashAttention-2 是如何实现更快的计算速度的
FlashAttention-2是对原始FlashAttention算法的一系列改进,旨在优化在GPU上的计算性能。本节详细讨论了FlashAttention-2的算法、并行性以及工作分区策略。
2024-06-20 18:28:22 1007
原创 使用 CTranslate2 实现 Faster Whisper 的加速转录
Faster Whisper 是对 OpenAI Whisper 模型的重新实现,使用 CTranslate2 这一高效的 Transformer 模型推理引擎。与原版模型相比,Faster Whisper 在同等精度下,推理速度提高了最多四倍,同时内存消耗显著减少。通过在 CPU 和 GPU 上进行 8 位量化,其效率可以进一步提升。
2024-06-20 15:58:54 925
原创 人工智能初学教程 - 基于MindSpore
提供对 MindSpore 的全面介绍,包括其架构、特性和安装方法。MindSpore 是一个新的开源深度学习训练/推理框架,可用于移动、边缘和云场景。MindSpore 旨在为数据科学家和算法工程师提供友好的设计和高效的执行体验,原生支持昇腾 AI 处理器,并实现软硬件协同优化。同时,MindSpore 作为全球 AI 开源社区,旨在进一步推动 AI 软件/硬件应用生态系统的发展和丰富。基本介绍人工智能(AI)和深度学习是当前最热门的技术领域之一。
2024-06-19 11:27:08 759
原创 GLMBlock中的计算过程拆解
通过这种方式,GLMBlock类实现了一个Transformer层,其中包括层归一化、自注意力机制、残差连接、Dropout和MLP层。各个步骤通过LaTeX公式表示如下:LayerNormLayerNormkv_cachekv_cachekv_cacheuse_cacheuse_cachekv_cachekv_cachekv_cacheuse_cacheuse_cacheresidualotherwiseresidualotherwiseDropoutp。
2024-06-18 16:55:37 1024
原创 glm4、qwen、MiniCPM-Llama3-V代码层面差异性分析
定义了一个继承自nn.Module的类。初始化方法,定义了这个类的构造函数。dim: 旋转嵌入的维度。rope_ratio: 调整基础比例的参数,默认值为 1。: 是否使用原始实现,默认值为False。device: 设备信息,指定计算是在 CPU 还是 GPU 上进行。dtype: 数据类型。调用父类nn.Module的初始化方法。计算倒频率inv_freq,用于生成旋转位置嵌入。生成从 0 到dim的步长为 2 的序列。这个序列除以dim并转换为指定的数据类型dtype。
2024-06-18 16:41:36 984
原创 MetaGPT: Merging Large Language Models Using Model Exclusive Task Arithmetic
背景: 论文开头提到了大型语言模型(如GPT-4)的出现,这些模型在经过预训练后,可以通过微调来适应特定的任务。然而,这样做的一个缺点是,每当有新任务出现时,就需要重新训练或微调模型,这既耗时又耗费资源。问题: 作者们指出,现有的方法在实现最优性能、计算效率和数据隐私方面存在局限。特别是当涉及到大规模语言模型时,这些局限变得更加明显。方法: 为了解决这些问题,作者们提出了MetaGPT。这是一种基于“任务算术”的方法,它通过调整预训练模型的权重来提升模型在多个任务上的性能。
2024-06-18 12:05:25 1236
原创 RAPTOR: 树结构递归摘要处理系统教程
RAPTOR 引入了一种通过构建文档的递归树结构来增强检索的语言模型新方法。该方法解决了阅读中的语义深度和连接问题,通过构建递归树结构,平衡了更广泛的主题理解与细节的把握。这种方法允许基于语义相似性而非文本顺序来分组节点。如果希望使用不同的语言模型进行摘要,可以通过扩展 BaseSummarizationModel 类来实现。# 初始化你的模型pass# 实现你的摘要逻辑summary = "你的摘要"
2024-06-18 10:53:14 352
原创 RAPTOR: Recursive Abstractive Processing for Tree-Organized Retrieval
MindSpore Transformers套件的目标是构建一个大模型训练、微调、评估、推理、部署的全流程开发套件,提供业内主流的Transformer类预训练模型和SOTA下游任务应用,涵盖丰富的并行特性。期望帮助用户轻松实现大模型训练和创新研发。一行代码实现从单卡到大规模集群训练的无缝切换;提供灵活易用的个性化并行配置;能够自动进行拓扑感知,高效地融合数据并行和模型并行策略;一键启动任意任务的单卡/多卡训练、微调、评估、推理流程;
2024-06-18 10:43:25 498
原创 MindSpore Transformers套件教程
MindSpore Transformers套件的目标是构建一个大模型训练、微调、评估、推理、部署的全流程开发套件,提供业内主流的Transformer类预训练模型和SOTA下游任务应用,涵盖丰富的并行特性。期望帮助用户轻松实现大模型训练和创新研发。一行代码实现从单卡到大规模集群训练的无缝切换;提供灵活易用的个性化并行配置;能够自动进行拓扑感知,高效地融合数据并行和模型并行策略;一键启动任意任务的单卡/多卡训练、微调、评估、推理流程;
2024-06-18 10:35:10 525
原创 教案:在 Spark 上使用 Horovod 进行分布式训练
Horovod 简介分布式深度学习的概念Horovod 的作用与优势Spark 简介Spark 的基本概念Spark 集群架构Horovod 与 Spark 的集成包的功能数据处理、模型训练和评估的一体化流程。
2024-06-17 10:43:54 433
原创 教案:Horovod on Ray
集成目的结合Horovod的分布式训练优势与Ray的集群管理和弹性扩展能力。使用RayExecutor API进行分布式任务执行。目前仅支持Gloo后端。
2024-06-17 10:41:17 284
原创 教案:Horovod v0.2 介绍与使用
通过本次课程,学生将掌握Horovod的基本概念和使用方法,能够将单GPU训练脚本扩展到多GPU环境,并进行性能优化。
2024-06-17 10:37:53 348
原创 教案:Horovod v0.2 介绍与使用
通过本次课程,学生将掌握Horovod的基本概念和使用方法,能够将单GPU训练脚本扩展到多GPU环境,并进行性能优化。
2024-06-17 10:30:49 292
原创 PaddleTS的时序预测模型模块模块
PaddleTS是基于飞桨深度学习框架PaddlePaddle开发的时序模型库。它提供了丰富的时序分析模型,包括预测、表征、异常检测和分类模型,适用于多种时序数据的分析和应用。通过这些模块,PaddleTS为用户提供了一个完整的时序数据分析解决方案。学生们可以根据不同的应用需求选择相应的模型模块,快速构建并部署时序预测、表征、异常检测和分类模型。
2024-06-14 11:58:59 1311 4
原创 常用的随机性检验及其数学原理
DW∑t1net2∑t2net−et−12etΔytαβtγyt−1δ1Δyt−1⋯δpΔyt−pϵtΔtγS2Tj1∑kσj2βj2Tβjσj2ytμβtrtrtQnn2k1∑mn−kρk2ρknmQZσR。
2024-06-14 11:16:47 370
原创 介绍线性回归模型、离散模型、时间序列分析、生存分析、多变量分析、非参数统计、数据集、统计测试和其他杂项模型
βXTX−1XTyβGLSXTΩ−1X−1XTΩ−1yβWLSXTWX−1XTWyβargβmini1∑nρτyi−xiTβ)ρτyXβZγϵγ∼N0G)ϵ∼N0R)gEY])XβgPY1∣X1e−Xβ1PYkk!λke−λ。
2024-06-14 11:15:28 387
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人