自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(106)
  • 资源 (10)
  • 收藏
  • 关注

原创 AFAC2024-基于保险条款的问答 比赛日记 llamafactory qwen npu 910B1

在最近的AFAC2024竞赛中,我参与了基于保险条款的问答赛道。这是一次深度学习与自然语言处理的实战演练,旨在提升模型在复杂保险文本理解与问答生成方面的能力。本文将分享我的参赛过程,包括数据处理、模型选择、微调策略、实验观察及最终成果。

2024-07-19 14:05:05 1585 6

原创 大模型微调实验记录

训练过程验证结果。

2024-07-05 09:53:59 683

原创 探索NVIDIA A100 显卡 如何手搓A100显卡

NVIDIA A100 显卡(GPU)是基于NVIDIA的Ampere架构设计的高性能计算和人工智能任务的处理器。

2024-07-01 13:43:45 521

原创 LoRA与量化技术结合:QPiSSA方法降低量化误差的优势分析

因此,LoRA可以与量化技术结合使用,量化基本模型以提高前向传播的内存效率,同时保持LoRA适配器的全精度以保证反向传播的准确性。量化技术是指将矩阵的值域划分为若干连续区域,并将每个区域内的所有值映射为相同的“量化”值。残差模型Wres移除了大奇异值成分,使得Wres的分布比W更窄。QPiSSA(Quantized PiSSA)与QLoRA不同,不对基本模型W进行量化,而是对残差模型Wres进行量化。论文中图展示了不同矩阵(W和Wres)的奇异值分布,以及QLoRA和QPiSSA的误差矩阵和数据值分布。

2024-06-27 10:38:55 513

原创 生成式模型输出范围的可控性:指令控制和数据控制

大模型的输出内容范围控制是一个重要的问题,尤其在应用场景需要确保模型的输出在预期范围内。当前业界通常通过以下两种主要方法来实现输出范围的可控性:指令控制和数据控制。

2024-06-26 17:47:30 539

原创 flash_attention modules下的block、mha代码阅读笔记

作者论文链接。

2024-06-26 09:00:00 924

原创 多层感知器的进化:从基础到并行门控——深入探讨MLP变体的实现、优化与风险

通过考虑这些潜在隐患和注意事项,可以帮助学生更全面地理解每种MLP实现的优缺点,并在实际应用中做出更明智的选择。从原理上分析,这些MLP实现确实存在一些潜在的风险。理解这些原理上的风险可以帮助开发者和研究者在设计和应用这些MLP变体时更加谨慎,并采取适当的措施来缓解这些潜在问题。这个详细的教案涵盖了代码中的主要概念和实现细节。希望这个详细的对比能帮助您更好地理解这些MLP实现的差异。当然,我很乐意为您对比这四种MLP实现的差异。基础MLP (Mlp类) 是最简单的实现,其他所有实现都是在此基础上进行改进。

2024-06-21 14:16:20 1396

原创 FlashAttention-2 是如何实现更快的计算速度的

FlashAttention-2是对原始FlashAttention算法的一系列改进,旨在优化在GPU上的计算性能。本节详细讨论了FlashAttention-2的算法、并行性以及工作分区策略。

2024-06-20 18:28:22 931

原创 使用 CTranslate2 实现 Faster Whisper 的加速转录

Faster Whisper 是对 OpenAI Whisper 模型的重新实现,使用 CTranslate2 这一高效的 Transformer 模型推理引擎。与原版模型相比,Faster Whisper 在同等精度下,推理速度提高了最多四倍,同时内存消耗显著减少。通过在 CPU 和 GPU 上进行 8 位量化,其效率可以进一步提升。

2024-06-20 15:58:54 517

原创 whisper fastapi 完整识别一个音频文件实现

【代码】whisper fastapi 完整识别一个音频文件实现。

2024-06-20 14:08:38 365

原创 人工智能初学教程 - 基于MindSpore

提供对 MindSpore 的全面介绍,包括其架构、特性和安装方法。MindSpore 是一个新的开源深度学习训练/推理框架,可用于移动、边缘和云场景。MindSpore 旨在为数据科学家和算法工程师提供友好的设计和高效的执行体验,原生支持昇腾 AI 处理器,并实现软硬件协同优化。同时,MindSpore 作为全球 AI 开源社区,旨在进一步推动 AI 软件/硬件应用生态系统的发展和丰富。基本介绍人工智能(AI)和深度学习是当前最热门的技术领域之一。

2024-06-19 11:27:08 676

原创 GLMBlock中的计算过程拆解

通过这种方式,GLMBlock类实现了一个Transformer层,其中包括层归一化、自注意力机制、残差连接、Dropout和MLP层。各个步骤通过LaTeX公式表示如下:LayerNormLayerNormkv_cachekv_cachekv_cacheuse_cacheuse_cachekv_cachekv_cachekv_cacheuse_cacheuse_cacheresidualotherwiseresidual​otherwise​Dropoutp。

2024-06-18 16:55:37 994

原创 glm4、qwen、MiniCPM-Llama3-V代码层面差异性分析

定义了一个继承自nn.Module的类。初始化方法,定义了这个类的构造函数。dim: 旋转嵌入的维度。rope_ratio: 调整基础比例的参数,默认值为 1。: 是否使用原始实现,默认值为False。device: 设备信息,指定计算是在 CPU 还是 GPU 上进行。dtype: 数据类型。调用父类nn.Module的初始化方法。计算倒频率inv_freq,用于生成旋转位置嵌入。生成从 0 到dim的步长为 2 的序列。这个序列除以dim并转换为指定的数据类型dtype。

2024-06-18 16:41:36 805

原创 MetaGPT: Merging Large Language Models Using Model Exclusive Task Arithmetic

背景: 论文开头提到了大型语言模型(如GPT-4)的出现,这些模型在经过预训练后,可以通过微调来适应特定的任务。然而,这样做的一个缺点是,每当有新任务出现时,就需要重新训练或微调模型,这既耗时又耗费资源。问题: 作者们指出,现有的方法在实现最优性能、计算效率和数据隐私方面存在局限。特别是当涉及到大规模语言模型时,这些局限变得更加明显。方法: 为了解决这些问题,作者们提出了MetaGPT。这是一种基于“任务算术”的方法,它通过调整预训练模型的权重来提升模型在多个任务上的性能。

2024-06-18 12:05:25 1185

原创 RAPTOR: 树结构递归摘要处理系统教程

RAPTOR 引入了一种通过构建文档的递归树结构来增强检索的语言模型新方法。该方法解决了阅读中的语义深度和连接问题,通过构建递归树结构,平衡了更广泛的主题理解与细节的把握。这种方法允许基于语义相似性而非文本顺序来分组节点。如果希望使用不同的语言模型进行摘要,可以通过扩展 BaseSummarizationModel 类来实现。# 初始化你的模型pass# 实现你的摘要逻辑summary = "你的摘要"

2024-06-18 10:53:14 299

原创 RAPTOR: Recursive Abstractive Processing for Tree-Organized Retrieval

MindSpore Transformers套件的目标是构建一个大模型训练、微调、评估、推理、部署的全流程开发套件,提供业内主流的Transformer类预训练模型和SOTA下游任务应用,涵盖丰富的并行特性。期望帮助用户轻松实现大模型训练和创新研发。一行代码实现从单卡到大规模集群训练的无缝切换;提供灵活易用的个性化并行配置;能够自动进行拓扑感知,高效地融合数据并行和模型并行策略;一键启动任意任务的单卡/多卡训练、微调、评估、推理流程;

2024-06-18 10:43:25 446

原创 MindSpore Transformers套件教程

MindSpore Transformers套件的目标是构建一个大模型训练、微调、评估、推理、部署的全流程开发套件,提供业内主流的Transformer类预训练模型和SOTA下游任务应用,涵盖丰富的并行特性。期望帮助用户轻松实现大模型训练和创新研发。一行代码实现从单卡到大规模集群训练的无缝切换;提供灵活易用的个性化并行配置;能够自动进行拓扑感知,高效地融合数据并行和模型并行策略;一键启动任意任务的单卡/多卡训练、微调、评估、推理流程;

2024-06-18 10:35:10 419

原创 windows安装spark

在 Windows 上安装 Spark 并进行配置需要一些步骤,包括安装必要的软件和配置环境变量。

2024-06-18 10:34:22 532

原创 windows安装spark

在 Windows 上安装 Spark 并进行配置需要一些步骤,包括安装必要的软件和配置环境变量。

2024-06-17 11:15:39 425

原创 教案:在 Spark 上使用 Horovod 进行分布式训练

Horovod 简介分布式深度学习的概念Horovod 的作用与优势Spark 简介Spark 的基本概念Spark 集群架构Horovod 与 Spark 的集成包的功能数据处理、模型训练和评估的一体化流程。

2024-06-17 10:43:54 415

原创 教案:Horovod on Ray

集成目的结合Horovod的分布式训练优势与Ray的集群管理和弹性扩展能力。使用RayExecutor API进行分布式任务执行。目前仅支持Gloo后端。

2024-06-17 10:41:17 270

原创 教案:Horovod v0.2 介绍与使用

通过本次课程,学生将掌握Horovod的基本概念和使用方法,能够将单GPU训练脚本扩展到多GPU环境,并进行性能优化。

2024-06-17 10:37:53 327

原创 教案:Horovod v0.2 介绍与使用

通过本次课程,学生将掌握Horovod的基本概念和使用方法,能够将单GPU训练脚本扩展到多GPU环境,并进行性能优化。

2024-06-17 10:30:49 276

原创 PaddleTS的时序预测模型模块模块

PaddleTS是基于飞桨深度学习框架PaddlePaddle开发的时序模型库。它提供了丰富的时序分析模型,包括预测、表征、异常检测和分类模型,适用于多种时序数据的分析和应用。通过这些模块,PaddleTS为用户提供了一个完整的时序数据分析解决方案。学生们可以根据不同的应用需求选择相应的模型模块,快速构建并部署时序预测、表征、异常检测和分类模型。

2024-06-14 11:58:59 1132 4

原创 时间序列分析 著名的期刊

时间序列分析是统计学和数据科学的一个重要分支,许多顶级期刊发表关于时间序列分析的研究论文。

2024-06-14 11:20:09 447

原创 常用的随机性检验及其数学原理

DW∑t1n​et2​∑t2n​et​−et−1​2​et​Δyt​αβtγyt−1​δ1​Δyt−1​⋯δp​Δyt−p​ϵt​ΔtγS2T​j1∑k​σj2​β​j2​​Tβ​j​σj2​yt​μβtrt​rt​Qnn2k1∑m​n−kρ​k2​​ρ​k​nmQZσR​。

2024-06-14 11:16:47 280

原创 介绍线性回归模型、离散模型、时间序列分析、生存分析、多变量分析、非参数统计、数据集、统计测试和其他杂项模型

β​XTX−1XTyβ​GLS​XTΩ−1X−1XTΩ−1yβ​WLS​XTWX−1XTWyβ​argβmin​i1∑n​ρτ​yi​−xiT​β)ρτ​yXβZγϵγ∼N0G)ϵ∼N0R)gEY])XβgPY1∣X1e−Xβ1​PYkk!λke−λ​。

2024-06-14 11:15:28 356

原创 介绍线性回归模型、离散模型、时间序列分析、生存分析、多变量分析、非参数统计、数据集、统计测试和其他杂项模型

β​XTX−1XTyβ​GLS​XTΩ−1X−1XTΩ−1yβ​WLS​XTWX−1XTWyβ​argβmin​i1∑n​ρτ​yi​−xiT​β)ρτ​yXβZγϵγ∼N0G)ϵ∼N0R)gEY])XβgPY1∣X1e−Xβ1​PYkk!λke−λ​。

2024-06-14 11:13:13 405

原创 介绍 LangChain

LangChain 是一个框架,用于开发由大语言模型(LLMs)驱动的应用程序。它简化了整个应用程序生命周期,包括开发、测试、部署和监控。

2024-06-14 11:12:22 934

原创 介绍spark中的模型选择与验证技术

参数网格构建器帮助定义所有可能的参数组合,而交叉验证和训练验证分割方法提供了评估模型性能的机制。通过这些方法,学生可以掌握从数据预处理、模型训练到参数调优的完整流程,提高模型的性能和可靠性。TrainValidationSplitModel 保存了在训练验证分割过程中表现最好的模型及其对应的参数组合,便于后续直接使用该最佳模型进行预测或变换。CrossValidatorModel 保存了在交叉验证过程中表现最好的模型及其对应的参数组合,便于后续直接使用该最佳模型进行预测或变换。

2024-06-14 11:00:02 510

原创 介绍spark统计测试和工具

用途:SummaryBuilder 提供关于给定列的总结统计信息的构建工具。原理SummaryBuilder 允许用户指定统计量类型,并生成关于特定数据列的总结统计信息,如均值、标准差、计数等。应用:在数据分析和建模过程中,SummaryBuilder 是一个有用的工具,可以帮助快速生成和查看数据的基本统计信息,便于后续处理和分析。通过以上详细介绍,学生们可以更好地理解这些统计测试和工具的核心原理及其在实际数据分析和处理中的应用。

2024-06-14 10:57:11 849

原创 介绍 Whisper 模型

Whisper是一个通用的语音识别模型。它在大规模多样化的音频数据集上进行训练,并且能够执行多任务处理,包括多语言语音识别、语音翻译和语言识别。

2024-06-14 10:33:52 847

原创 IsotonicRegression、LinearRegression、RandomForestRegressor与FMRegressor

因子分解机(Factorization Machines,FM)回归是一种基于因子分解的回归方法,适用于高维稀疏数据。随机森林回归(Random Forest Regression)是一种集成学习方法,通过训练多棵决策树来改善回归预测的准确性。它结合了随机森林的思想和回归树的概念。它试图在保持数据顺序的同时,拟合出一个单调非减或非增的函数。同时最小化损失函数,常用的损失函数为均方误差(Mean Squared Error)或者基于秩的损失函数。线性回归是一种基本的线性模型,用于建模响应变量。

2024-06-13 18:26:09 909

原创 spark MLlib (DataFrame-based) 中的聚类算法Bisecting K-Means、K-Means、Gaussian Mixture

Bisecting K-Means 是一种层次 K-Means 聚类算法,基于 Steinbach、Karypis 和 Kumar 的论文《A comparison of document clustering techniques》,并对 Spark 环境进行了修改和适应。每个高斯分布代表一个聚类,数据点是从这些高斯分布中生成的。K-Means 是一种经典的聚类算法,通过最小化每个聚类中所有数据点与其所属聚类中心点之间的平方距离的总和来进行聚类。

2024-06-13 18:19:33 783

原创 常见的spark mllib分类算法详解

以上是几种常见的分类算法及其相关模型在Spark MLlib中的实现和使用方法。每种算法都有其适用的场景和特点,选择合适的算法可以根据数据集的特征、问题的复杂度和性能要求来决定。希望本文能为读者提供清晰的理解和实际应用指导。

2024-06-13 17:48:09 825

原创 深入了解 Whisper 的架构、用法以及在语音识别领域的应用和性能特征

Whisper 是一个基于 Transformer 序列到序列模型的通用语音识别系统,经过训练可以执行多语种语音识别、语音翻译和语言识别任务。本文将深入介绍 Whisper 的工作原理、设置方法、可用模型及其性能评估。

2024-06-13 16:40:21 889

原创 深入了解 Whisper 的架构、用法以及在语音识别领域的应用和性能特征

Whisper 是一个基于 Transformer 序列到序列模型的通用语音识别系统,经过训练可以执行多语种语音识别、语音翻译和语言识别任务。本文将深入介绍 Whisper 的工作原理、设置方法、可用模型及其性能评估。

2024-06-13 16:35:30 1361

原创 spark mllib 特征学习笔记 (二)

这些例子展示了更多 PySpark MLlib 中特征处理方法的公式、适用场景和简单案例。每种方法都有其特定的数学原理和适用范围,根据具体任务的需求选择合适的方法可以提高数据处理的效率和模型的预测性能。这些例子展示了 PySpark MLlib 中几种常用的特征处理方法的基本用法和应用场景。根据具体的数据和任务需求,选择合适的特征处理方法可以有效地提高模型的性能和准确性。用于处理数据集中的向量特征,自动识别并索引类别特征。用于移除方差较低的特征,以减少噪声对模型的影响。

2024-06-13 16:16:18 1318

原创 spark mllib 特征学习笔记 (一)

PySpark MLlib 提供了丰富的特征处理工具,帮助我们进行特征提取、转换和选择。以下是 PySpark MLlib 中常用的特征处理类及其简要介绍。

2024-06-13 16:08:52 1629

原创 从几个角度分析chatgpt、chatglm、通义千问之间的实际使用差距

其实我还是很好奇的硬件到底是在模型之中的结果还是模型通过rag进行检索生成的结果。这个问题明显是希望获取到一个更加具体的解决方案,但是实际上这个随机的结果在通义千问跟智谱清言上,完全没有提示一款知名的可以交互的线索。这个问题明显是希望获取到一个更加具体的解决方案,但是实际上这个随机的结果在通义千问跟智谱清言上,完全没有提示一款知名的可以交互的线索。这个问题明显是希望获取到一个更加具体的解决方案,但是实际上这个随机的结果在通义千问跟智谱清言上,完全没有提示一款知名的可以交互的线索。chatgpt的回答是。

2024-06-11 18:13:58 973

中国上市公司2021年企业年报

中国上市公司2021年企业年报,囊括大部分中国上市公司公告。

2022-06-12

医疗非结构化知识图谱抽取数据集

医疗非结构化知识图谱抽取数据集

2022-04-29

百度问答数据集 超过百万

自己整理了一些高质量百度问答数据集

2022-04-27

ace2005 命名实体识别 关系抽取

ace2005 命名实体识别 关系抽取

2022-03-17

medical_all_data.txt 医学问答高质量文本收集

医学问答高质量文本收集,可以用作文本生成训练,医学问答场景命名实体识别,

2021-10-28

medical_ner_hulu 2.zip

基于bert ner的医疗命名实体识别模型。

2021-10-27

all_day1_company.csv

采集到的一些企业公开信息

2021-10-14

china-people-daily-ner-corpus.tar.gz

中文命名实体识别数据集

2021-10-14

medical_bert.zip

中文医学百万问答对数据训练字粒度的bert预训练语言模型

2021-10-14

youlai_diseases.csv

面对医学场景自然语言处理技术研究的同学可以关注一下。2372种疾病的知识图谱数据。

2021-04-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除