自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大模型天花板

这个时代名为AGI

  • 博客(469)
  • 资源 (8)
  • 收藏
  • 关注

原创 将大模型指令微调数据从parquet转为json格式

【代码】将大模型指令微调数据从parquet转为json格式。

2024-11-30 10:59:49 386

原创 加快训练LLM速度的技巧笔记

解释:如下图,相比fp32,bf16的表示范围不变(还是e8),但精度从m23降到了m7,但在大模型训练时,这种精度损失是可接受的。需要注意,有些老的gpu不支持这个操作。一些新一点的4090,A100,H100等均支持。解释:python的gcc编译优化(优化代码底层执行指令,主要优化了代码中对gpu的读写操作,不影响任何性能),在训练前会花费时间进行编译,但大大加快训练时速度。需要注意,windows用不了。

2024-11-24 11:18:30 393

原创 Python画好看的雷达图,全网开源代码最好看的

【代码】Python画好看的雷达图,全网开源代码最好看的。

2024-11-02 11:14:32 218

原创 linux批量解压tar.gz文件

【代码】linux批量解压tar.gz文件。

2024-08-28 15:15:27 627

原创 python读写json,json,parquet文件,各种文件格式转换代码

【代码】python读写json,json,parquet文件。

2024-08-16 09:07:33 366

原创 ubuntu递归下载deb安装包,解决离线依赖问题

换成自己需要安装的包,虽然下面代码会递归下载依赖安装包,但是在离线环境下仍然可能会出现依赖包为配置问题。最后,把所有安装包移到离线电脑上的一个文件夹后,使用下面命令安装deb包。如果出现反配置问题,可以使用下面的命令自动反配置来强制安装某些包。主要针对离线环境的电脑安装deb包。所有安装包都不报错才能安装成功。

2024-07-25 16:17:46 967

原创 CLIP各个模型的性能比较图

CLIP各个模型的性能比较图

2024-07-05 19:15:01 307

原创 简单方法判断一个字符串是中文还是英文的

【代码】简单方法判断一个字符串是中文还是英文的。

2024-07-04 12:19:40 235

原创 大模型参数高效微调学习笔记

1.BitFit将模型的所有偏置bias设为可训练的参数,其他部分设置为不可训练的。将模型的所有注意力层Attention设为可训练的参数,其他部分设置为不可训练的。在模型的输入的prompt前面加入一个可训练Prompt embedding向量,模型的整个部分全部冻结,如下图。如果Prompt embedding向量参数是随机初始化的,则是soft prompt,如果使用一段文本初始化(例如,“下面是一个情感任务”),则是hard prompt。4.P-tuning。

2024-06-23 21:06:05 505

原创 Qwen2的各模型性能、占用显存和推理速度比较(摘自官方文档)

Qwen2的各模型性能、占用显存和推理速度比较(摘自官方文档)性能推理速度(从大到小)72B57B-A14B7B1.5B0.5B

2024-06-15 19:20:15 17714

原创 图片based64编码解码python代码

【代码】图片based64编码解码python代码。

2024-06-14 19:13:34 474

原创 大模型单次预测下一个token的过程分析,帮助理解model.generate

【代码】大模型单次预测下一个token的过程分析,帮助理解model.generate。

2024-06-14 18:42:52 442

原创 GLM4-Chat-1M(号称可以输入200万字)的长文本测试结果(推理时间,推理效果)

vllm框架比普通的generate生成结果更快挺多的,设备受限,目前测试最大的长度为455731万个字符,大约22万个token,确实是能跑的,大概需要80.355秒,从结果来看是可以接受的。但是模型的输出看起来时好时坏,不稳定。

2024-06-12 22:06:34 1041

原创 大模型推理时model.generate的源码

文件路径:anaconda3/envs/环境名/lib/python3.10/site-packages/transformers/generation/utils.py。

2024-06-11 15:08:24 895

原创 glm-4-9b-chat-1m模型结构解读

【代码】glm-4-9b-chat-1m模型结构解读。

2024-06-10 20:45:50 536

原创 Internlm_xcomposer2模型结构解读

【代码】Internlm_xcomposer2模型结构解读。

2024-06-10 17:12:24 324

原创 Qwen2-MOE-57B-A14B模型结构解读

该模型总的参数为57B,激活参数为14B,推理速度比32B的快,而且性能更好。

2024-06-09 21:44:31 3776

原创 BrainGPT1,一个帮你b站点歌放视频的多模态多轮对话模型

BrainGPT1是一个工具调用多轮对话模型,与GPT-4o不同的是,模型通过调用多个工具模型实现了多模态的多轮对话。因此,模型具备有工具灵活更新,定制化使用的特点。通用问答:默认使用讯飞星火大模型提供的免费API(spark lite),也可以自行接入其他API或本地模型,项目中提供了接入本地ChatGLM3的API的demo。画图能力:默认使用模型。图片问答:默认使用模型。多媒体播放:默认代码查询并返回bilibili的搜索结果。天气查询:默认使用代码查询并返回API的结果。BrainGPT1。

2024-06-01 17:41:14 1175

原创 多模态数学推理数据集:MATH-V和MATHVISTA

这里选取了两篇多模态数学推理数据集的代表工作MATH-V和MATHVISTA,均是今年2024年发表的工作。前者是港中大的工作,后者是加利福尼亚大学洛杉矶分校的工作。

2024-05-18 12:26:39 1584

原创 使用在线工具等方式下载推特视频

【代码】使用在线工具等方式下载推特视频。

2024-05-16 09:54:08 2132

原创 python实现把doc文件批量转化为docx

【代码】python实现把doc文件批量转化为docx。

2024-05-10 18:45:14 744

原创 Python画图时好看的颜色列表,7个颜色

在Python中,使用matplotlib库可以画出各种图表,并且可以自定义颜色。可以根据自己的喜好和图表的需求选择适合的颜色列表。

2024-05-06 20:11:55 2418 1

原创 python实现字符串转义

【代码】python实现字符串转义。

2024-05-04 15:14:47 369

原创 simpletex的api调用代码

【代码】simpletex的api调用代码。

2024-04-22 23:36:02 353

原创 Python实现将文件夹下的所有pdf文件合并成一个pdf文件,并用文件夹名字命名

【代码】Python实现将文件夹下的所有pdf文件合并成一个pdf文件,并用文件夹名字命名。

2024-04-19 21:59:46 608

原创 Python遍历文件夹(包括子文件夹)下所有zip文件进行解压

【代码】Python遍历文件夹(包括子文件夹)下所有zip文件进行解压。

2024-04-15 21:18:00 544 2

原创 python递归统计文件夹下pdf文件的数量

【代码】python递归统计文件夹下pdf文件的数量。

2024-04-14 16:43:05 478 2

原创 python调用Microsoft Word把文件夹下所有docx或doc批量转化为PDF

请注意,这个脚本会关闭Word应用程序,但在某些情况下,Word进程可能会留在后台。为了避免这种情况,你可以在转换完成后确保Word进程被完全关闭。此外,由于这个方法依赖于Microsoft Word的COM接口,它只能在安装了Microsoft Word的Windows系统上运行。函数接受一个目录路径作为参数,并遍历该目录中的所有DOC和DOCX文件,将它们转换为PDF文件。首先,确保你的系统上安装了Microsoft Word。库打开Word应用程序,打开指定的Word文档,并将其另存为PDF格式。

2024-04-14 13:27:01 624

原创 计算机常见的六大会议介绍:CVPR/ICCV/ECCV;NeurIPS/ICML/ICLR

CVPR、ICCV和ECCV是计算机视觉领域顶级的三个国际会议,而NeurIPS、ICML和ICLR则是机器学习领域最具影响力的三个国际会议。

2024-04-13 22:34:56 3280

原创 Mathpix和Simpletex对比

在不超过 15 的素数中,随机选取 2 个不同的数,则这 2 个数的积是偶数的概率是 ( )\quad ( a\in \mathbb{R} $,i为虚数单位),的值为( ) A. l B.2 C.3 D.4。, 则实数 m 的值为( ) A.C.1 D.25. 已知向量。复数$z= \alpha+是 z 的共轭复数,若。

2024-04-09 13:00:23 1338

原创 基于频繁模式挖掘的 GCC 编译时能耗演化优化算法

基于频繁模式挖掘的 GCC 编译时能耗演化优化算法1.摘要18年我尊爱的导师发在软件学报上的一篇论文。演化算法通过搜寻 GCC 编译器最优编译选项集对可执行代码的能耗进行改进,以达到编译时优化嵌入式软件能耗的目的.但这类算法未考虑多个编译选项之间可能存在相互影响,导致了其解质量不高且收敛速度慢的问题.针对这一不足,本文设计了一种基于频繁模式挖掘的文化基因算法 MA-FP,在演化过程中利用频繁模式挖掘得到出现频度高且对能耗有显著改进效果的一组编译选项,并以此作为启发式信息设计了“增添”和“删减”两种变异算

2024-03-12 15:34:23 777

原创 (一区)基于模型的连续和离散全局优化方法

Model-based methods for continuous and discrete global optimization1.摘要本文综述了下基于模型的连续和离散全局优化方法,并提出了一种叠加替代信息的新方法。2.介绍比较水。。作者说,本文是首次尝试提供对连续和离散建模方法的可理解的调查和分类。由于离散领域的MBO是一个相对较新的研究课题,因此引入了处理离散结构的六种策略。在描述了这些策略如何作为应用MBO的指导方针之后,本文讨论了替代模型的集合作为MBO的最新和很有前途的方法。3.分

2024-03-12 15:33:33 390

原创 (顶会)组合结构的贝叶斯优化

Bayesian Optimization of Combinatorial Structures1.摘要本文提出了一个算法(BOCS),它基于一个自适应的、可扩展的模型,即使数据稀缺,也能识别有用的组合结构。我们的采集函数率先使用半定编程来实现效率和可伸缩性。实验结果表明,该算法的性能始终优于其他组合方法和贝叶斯优化方法。2.介绍本文的主要贡献是:一种获得获取函数近似优化器的新方法,利用凸优化的算法思想来实现可伸缩性和效率。该方法克服了许多采集函数对大型组合领域所固有的有限的可扩展性。我们提

2024-03-12 15:32:35 347

原创 torchrun常见参数

【代码】torchrun常见参数。

2024-03-12 15:30:24 2414

原创 垂直领域大模型搭建训练指南,ChemLLM论文介绍

论文是上海人工智能实验室的工作,想训练一个化学垂直领域的对话大模型,然而现有的化学数据往往是结构性的,所以这里论文提出了一套垂直领域数据制作和训练方法,为社区制作专有领域模型提供参考。ChemLLM在化学的三个主要任务上都超过了GPT-3.5,并且超过了GPT-3.5,在其中两个任务上都超过了GPT-4。值得注意的是,ChemLLM对相关的数学和物理任务也显示出了特殊的适应性,尽管它主要接受了以化学为中心的语料库的训练。原化学的表达是SMILES,不适合自然语言处理。

2024-02-27 16:46:36 2467 3

原创 19个大模型常用的评估数据集和训练数据集汇总

19个大模型常用的评估数据集和训练数据集汇总 名称 简介 测试(数据量) 训练(数据量) 地址 CEval 中文选择题测试,包括中学、高中、大学的多个学科 √,13948 × https://huggingface.co/datasets/ceval/ceval-exam GSM8K 小学数学题目,通过最后的数字检测正确与否 √,1320 √,8790 h

2024-02-21 20:46:50 6034 1

原创 百度翻译api调用代码

【代码】百度翻译api调用代码。

2024-02-17 10:58:46 353

原创 怎么让视频进行加速处理并保存

在 Windows 和 macOS 上,你可以从 FFmpeg 官方网站(https://ffmpeg.org/download.html)下载预编译的可执行文件,然后按照官方文档或相关教程进行安装和使用。因此,它不仅限于 Linux 系统,也可以在其他操作系统上使用。请注意,加速倍数越大,可能会导致视频和音频的质量损失,因此你可能需要根据具体情况进行调整。此外,这只是一个基本的例子,你可以根据需要使用其他参数和过滤器进行更高级的调整。总之,FFmpeg 是一个跨平台工具,可以在不同的操作系统上使用。

2024-01-05 11:04:19 2784

原创 API服务的快速搭建和测试

【代码】API服务的快速搭建和测试。

2023-12-29 15:45:13 646

原创 大模型:常见的文字表情包(可以直接加到微调数据里)

返回论文目录返回资料目录

2023-12-11 22:45:04 1621

glm-4-9b-chat-1m模型代码文件

glm-4-9b-chat-1m模型代码文件

2024-06-10

Qwen2-MOE-57B-A14B模型文件

Qwen2-MOE-57B-A14B模型文件

2024-06-09

Qwen2模型代码文件

Qwen2模型代码文件

2024-06-09

大模型结构介绍,chatglm2模型的创新点

目录 1.GML核心创新 2.GML网络创新 3.ChatGML2的新改动 4.ChatGML2的微调

2023-10-30

大模型结构介绍,从Transformer到llama,再到llama2

大模型结构介绍

2023-10-30

大模型指令微调概述,大模型微调简单介绍ppt

目前学术界一般将NLP任务的发展分为四个阶段即NLP四范式: 第一范式:基于传统机器学习模型的范式,如 tf-idf 特征+朴素贝叶斯等机器算法; 第二范式:基于深度学习模型的范式,如 word2vec 特征 + LSTM 等深度学习算法,相比于第一范式,模型准确有所提高,特征工程的工作也有所减少; 第三范式:基于预训练模型 + fine-tuning的范式,如 BERT + finetuning 的NLP任务,相比于第二范式,模型准确度显著提高,但是模型也随之变得更大,但小数据集就可训练出好模型; 第四范式:基于预训练模型 + Prompt + 预测的范式,如 BERT + Prompt 的范式相比于第三范式,模型训练所需的训练数据显著减少。

2023-10-30

免费领取阿里云资源部署大模型ChatGLM2,可以训练

免费获得阿里云独家资源,以部署ChatGLM2大型模型,并享受卓越的微调能力。我们以用户为中心,提供了全面的手把手教学,无论您是初学者还是专家,都能轻松掌握使用这一超级福利的技巧。 ChatGLM2大模型不仅强大,而且多功能。您可以根据自己的需求对模型进行微调,以满足特定的应用场景。无论您是构建聊天机器人、自然语言处理应用还是进行大规模数据分析,这一资源都将是您的强大工具。 此外,我们为您提供了持续的技术支持和资源更新,以确保您的项目始终保持在技术领域的前沿。无需担心高昂的费用,免费领取这些资源,让您在各种领域中实现更多潜力。加入我们,开启您的数据科学和人工智能之旅,体验超级福利的独特魅力。"

2023-10-30

大模型前世今生-参考文献表

大模型前世今生-参考文献表

2023-10-23

Nemenyi的q-\alpha值的csv表,包括了0.05和0.1置信水平

Nemenyi的q_{\alpha}值的csv表,包括了0.05和0.1置信水平

2023-01-10

Friedman检验用到的F分布表,csv格式

用于Friedman检验,查其关键值,用于比较是否有显著差异

2023-01-10

自动计算元旦倒计时代码

自动计算元旦倒计时代码,python版本,可以直接运行,还带有注释方便使用和修改

2022-12-23

Transformer深度讲解,进一步给出其在NLP和CV下的发展,共95页ppt,全网最好的讲解,没有之一

1.Transformer背景介绍 2.Transfromer整体架构 3.Transformer输入部分 4.Transfromer的编码器 5.Transfromer的解码器 6.Transformer输出部分 7.Transfromer其他部分 1.GPT-1 和 Bert 2.GPT-2 3.GPT-3 Transformer在深度学习环境下背景: 17年自Attention is all you need提出后,开始在NLP(自然语言处理)领域大放异彩 20年后,开始在CV领域发光,到现在基本一统天下了 其在NLP和CV领域下的许多分类、分割、检测等任务下均刷榜 总结一下Transformer模型。 从论文本身来看,其最大的创新在于提出的注意力机制,即多头注意力层,并嵌入到一个模块化可堆叠的模型结构中。一开始Transformer被用于机器翻译,但它也能够用在几乎所有的NLP任务上。自它之后,整个深度学习重心开始转向NLP方面。 4..InstructGPT和ChatGPT 1.VIT 2.Clip与DallE-1 3.DiffusionModel和DallE-2

2022-12-21

NSGA-II多目标优化算法小白详细介绍ppt

非支配排序,拥挤度计算,pareto前沿,A Fast and Elitist Multi-objective Genetic Algorithm: NSGA-II NSGA算法 NSGA算法缺陷 NSGA-II算法 总结 1. 快速非支配排序法将时间复杂度改进为O(MN2); 2.使用拥塞距离代替代替共享函数算法保持种群多样性; 引入精英保留策略。 非支配排序的复杂度较高: O(MN3) (M是目标函数的个数,N是种群大小); 缺少精英保留策略; 需要人为指定共享参数σshare(共享小生境步骤)。 NSGA: nondominated sorting genetic algorithms-非支配排序遗传算法 nondominated:非支配 例:回家,两目标(费用,时间),均越小越好 动车A(270 , 7),普快B(120 , 10),飞机C(240,2) C(240,2)支配A(270 , 7); A(270 , 7)被C(240,2)支配; B(120 , 10)和C(240,2)不可比,即非支配。 目的:得到一组非支配的解--Pareto最优解集。

2022-12-21

GNN,GCN,图神经网络深度讲解100页ppt 包括基础的GNN和其多个变体

PART ONE/为什么需要图神经网络 PART TWO/什么是图神经网络(包括图的基本知识,及基本GNN的操作) PART THREE/图神经网络的变体(图神经网络的3个变体,图卷积神经网络(又可分为基于空间域的图卷积神经网络和基于频域的图卷积神经网络),基于注意力的图神经网络,基于自编码器的图神经网络)。包括DCNN(Diffusion-Convolution Neural Network、NN4G(Neural Networks for Graph)、MPNN:Message Passing Neural Network、GAT (Graph Attention Network)、图自编码器(graph autoencoder,GAE)、变分图自编码器(variational graph autoencoder,VGAE) PART FOUR/应用,在自然语言处理方面的应用,在计算机视觉方面的应用,在推荐系统方面的应用,在预测问题方面的应用

2022-12-19

CNN卷积神经网络讲解50多页PPT 卷积核,感受野,池化核多原理讲解

1.CNN基础结构 2.卷积操作细节讲解 3.图像基础知识 4.池化操作 可以不可以模仿人类大脑的这个特点,构造多层的神经网络,较低层的识别初级的图像特征,若干底层特征组成更上一层特征,最终通过多个层级的组合,最终在顶层做出分类呢? 答案是肯定的,这也是许多深度学习算法(包括CNN)的灵感来源

2022-11-22

生成对抗网络GAN( Generative Adversarial Networks)63PPT,GAN原理,介绍,变体详细

1.GAN背景 2.GAN原理 3.最原始GAN 4.GAN变体 5.整整63页的ppt,下载就是赚到 到2014为止,最广泛使用和最成功的机器学习形式是监督学习。通过给定包含{输入X,输出Y}的训练数据集,监督学习算法学习从输入到输出的映射关系,以分类问题举例,监督学习算法得到的模型能够较好的识别特定的类别(一张照片属于狗或猫的情况)。 然而现有的监督学习通常需要数百万个训练数据来达到超过人类表现的效果,这对训练数据集的获取带来了极大的挑战。

2022-11-22

自动编码器,多种自编码器深入浅出介绍,包括SAE,CAE,DAE,VAE

1.自编码器简介,包括(1.1什么是自编码器,1.2自编码器有什么用,1.3怎样构建自编码器,1.4自编码器及其变体) 2.稀疏自编码器(SAE),包括(2.1为什么要有稀疏自编码器,2.2稀疏自编码器介绍,2.3稀疏自编码器原理,2.4与自编码器的区别) 3.收缩自编码器(CAE),包括(3.1 预备知识,3.2 CAE目标,3.3 CAE构造) 4.去噪自编码器(DAE),包括(4.1什么是去噪自编码器,4.2去噪自编码器的结构) 5.变分自编码器(VAE),包括(5.1为什么用变分自编码器,5.2变分自编码器的结构)

2022-11-22

RNN循环神经网络PPT,涉及到LSTM,GRU、BRNN、BLSTM等等介绍,适合开会用,总共有50页,干货满满

1.干货满满,整整50页,远远比网络上其他RNN的PPT好,PPT修改过3、4次 2.常见激活函数,损失函数 3.从原理出发讲解LSTM神经网络与传统RNN的区别 4.讲解多个RNN的变体原理细节,GRU、BRNN、BLSTM。 5.RNN的应用场景 6.RNN的背景及其意义

2022-11-22

全连接神经网络(多层感知机)PPT,可以直接开会讲

1.单层感知机 2.多层感知机 3.常见梯度优化 3.常见损失函数 4.多个例子 5.可以直接开会讲,适合学习和汇报 6.常见的激活函数介绍 7.使用房价预测问题介绍了单层感知机模型 8.BP神经网络 9.前馈神经网络 10.梯度优化实例 11.MLP神经网络

2022-11-22

2009B眼科病床合理安排.rar

数学建模2009B题眼科病床合理安排,欢迎配合我的博客学习,https://blog.csdn.net/a1920993165/article/details/108171986

2020-08-22

2006B艾滋病疗法评价.rar

2006年国赛B题“艾滋病疗法的评价”,欢迎配合我的博客学习https://blog.csdn.net/a1920993165/article/details/108171045

2020-08-22

最佳灾情巡视路线优秀论文.rar

本题是旅行售货员问题的延伸-多旅行售货员问题. 本题所求的分组巡视的最佳路线,也就是m条 经过同一点并覆盖所有其他顶点又使边权之和达到 最小的闭链(闭迹).   如第一问是三个旅行售货员问题,第二问是四 个旅行售货员问题.   众所周知,旅行售货员问题属于NP完全问题, 即求解没有多项式时间算法.   显然本问题更应属于NP完全问题. 有鉴于此, 一定要针对问题的实际特点寻找简便方法,想找到 解决此类问题的一般方法是不现实的,对于规模较大 的问题可使用近似算法来求得近似最优解

2020-08-19

2016年国赛A题“系泊系统的设计”附件

2016年数学建模国赛A题“系泊系统的设计”https://blog.csdn.net/a1920993165/article/details/108032310的(我的博客)附件,免费学习下载

2020-08-16

2016年国赛A题题目.rar

2016年数学建模国赛A题,里面包括题目和评分标准,可用于学习参考,这里提供免费的下载不需要积分,可以去我的https://blog.csdn.net/a1920993165/article/details/107993927这找到讲解学习

2020-08-16

Lingo11.zip

好用的lingo软件,对于线性规划问题的求解十分方便,可用于数学建模竞赛或平常学习,版本为11,够用了,

2020-08-15

PDF转换软件.zip

pdf转换软件,支持pdf转换成word,合并多个pdf等多种操作。 里面有安装办法,是免费的,不用担心。 这样就可以避开消耗购买wps会员使用wps转换的费用。

2020-06-17

javaWeb书城项目源码

项目源代码,可以提供学习javaweb开发,里面包括结构图等帮助。

2018-07-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除