小怪兽会微笑-CSDN博客

原创常见NLP指标PPL，F1，Rouge-L，Accuracy (CLS)，Accuracy (EM)总结

2025-04-05 15:33:23 324

原创 PyTorch Tensor 形状变化操作详解

在深度学习中，Tensor 的形状变换是非常常见的操作。PyTorch 提供了丰富的 API 来帮助我们调整 Tensor 的形状，以满足模型输入、计算或数据处理的需求。本文将详细介绍 PyTorch 中常见的 Tensor 形状变换操作，并通过示例代码进行说明。

2025-02-17 17:00:46 488

原创使用deepspeed的zero3的offload参数时报错return tensor.pin_memory()， RuntimeError: CUDA error: invalid argument

是硬盘存储空间不够导致的，删掉些东西就好了。

2025-02-14 11:43:35 288

原创 DeepSeek-R1中训练使用的GRPO奖励函数公式详细讲解

相比较PPO，GRPO（Group Relative Policy Optimization）的训练成本会更低，更简单。通俗的理解，当两个分布一致时，下面的公式第一项为 1，第二项为0，计算后总的值为0，即惩罚项为0。散度，避免训练后的模型输出分布与之前的分布相差太大。模型会在一组输出上更新几轮，我们训练的目标是更新。的概率高），这样模型的第一项结果就更大（我们需要最大化这个公式）。：如下，KL散度用于避免训练后模型的输出分布和原模型相差太大（通过奖励模型获得的奖励值。的一项是优化模型能输出更高优势。

2025-02-12 16:37:08 1336

原创 Deepspeed的zero2和zero3的配置文件Demo

使用下面这个文件，在8*H100的机器上训练了Qwen2.5-32B模型。上下文窗口8K，batch_size = 8（num_gpu）*2（per_gpu_batch_size）*8(gradient_accumulation_steps) =128，deepspeed采用zero3，显存占用约65G，内存占用约653G（还有数据占的显存，数据量为0.06B tokens），训练时长2 hour。使用下面这个文件，在8*H100的机器上训练了Qwen2.5-7B模型。

2025-02-09 16:44:54 614

原创大模型相关资料、基础技术和排行榜

大模型

2025-01-17 17:58:51 2026

原创将大模型指令微调数据从parquet转为json格式

【代码】将大模型指令微调数据从parquet转为json格式。

2024-11-30 10:59:49 872

原创加快训练LLM速度的技巧笔记

解释：如下图，相比fp32，bf16的表示范围不变（还是e8），但精度从m23降到了m7，但在大模型训练时，这种精度损失是可接受的。需要注意，有些老的gpu不支持这个操作。一些新一点的4090，A100，H100等均支持。解释：python的gcc编译优化（优化代码底层执行指令，主要优化了代码中对gpu的读写操作，不影响任何性能），在训练前会花费时间进行编译，但大大加快训练时速度。需要注意，windows用不了。

2024-11-24 11:18:30 594

原创 Python画好看的雷达图，全网开源代码最好看的

【代码】Python画好看的雷达图，全网开源代码最好看的。

2024-11-02 11:14:32 1228

原创 linux批量解压tar.gz文件

【代码】linux批量解压tar.gz文件。

2024-08-28 15:15:27 721 1

原创 python读写json，json，parquet文件,各种文件格式转换代码

【代码】python读写json，json，parquet文件。

2024-08-16 09:07:33 800

原创 ubuntu递归下载deb安装包，解决离线依赖问题

换成自己需要安装的包，虽然下面代码会递归下载依赖安装包，但是在离线环境下仍然可能会出现依赖包为配置问题。最后，把所有安装包移到离线电脑上的一个文件夹后，使用下面命令安装deb包。如果出现反配置问题，可以使用下面的命令自动反配置来强制安装某些包。主要针对离线环境的电脑安装deb包。所有安装包都不报错才能安装成功。

2024-07-25 16:17:46 1410

原创 CLIP各个模型的性能比较图

CLIP各个模型的性能比较图

2024-07-05 19:15:01 479

原创简单方法判断一个字符串是中文还是英文的

【代码】简单方法判断一个字符串是中文还是英文的。

2024-07-04 12:19:40 314

原创大模型参数高效微调学习笔记

1.BitFit将模型的所有偏置bias设为可训练的参数，其他部分设置为不可训练的。将模型的所有注意力层Attention设为可训练的参数，其他部分设置为不可训练的。在模型的输入的prompt前面加入一个可训练Prompt embedding向量，模型的整个部分全部冻结，如下图。如果Prompt embedding向量参数是随机初始化的，则是soft prompt，如果使用一段文本初始化（例如，“下面是一个情感任务”），则是hard prompt。4.P-tuning。

2024-06-23 21:06:05 577

原创 Qwen2的各模型性能、占用显存和推理速度比较（摘自官方文档）

Qwen2的各模型性能、占用显存和推理速度比较（摘自官方文档）性能推理速度（从大到小）72B57B-A14B7B1.5B0.5B

2024-06-15 19:20:15 25785 1

原创图片based64编码解码python代码

【代码】图片based64编码解码python代码。

2024-06-14 19:13:34 562

原创大模型单次预测下一个token的过程分析，帮助理解model.generate

【代码】大模型单次预测下一个token的过程分析，帮助理解model.generate。

2024-06-14 18:42:52 772

原创 GLM4-Chat-1M（号称可以输入200万字）的长文本测试结果（推理时间，推理效果）

vllm框架比普通的generate生成结果更快挺多的，设备受限，目前测试最大的长度为455731万个字符，大约22万个token，确实是能跑的，大概需要80.355秒，从结果来看是可以接受的。但是模型的输出看起来时好时坏，不稳定。

2024-06-12 22:06:34 1246

原创大模型推理时model.generate的源码

文件路径：anaconda3/envs/环境名/lib/python3.10/site-packages/transformers/generation/utils.py。

2024-06-11 15:08:24 1262

原创 glm-4-9b-chat-1m模型结构解读

【代码】glm-4-9b-chat-1m模型结构解读。

2024-06-10 20:45:50 687

原创 Internlm_xcomposer2模型结构解读

【代码】Internlm_xcomposer2模型结构解读。

2024-06-10 17:12:24 381

原创 Qwen2-MOE-57B-A14B模型结构解读

该模型总的参数为57B，激活参数为14B，推理速度比32B的快，而且性能更好。

2024-06-09 21:44:31 4508

原创 BrainGPT1，一个帮你b站点歌放视频的多模态多轮对话模型

BrainGPT1是一个工具调用多轮对话模型，与GPT-4o不同的是，模型通过调用多个工具模型实现了多模态的多轮对话。因此，模型具备有工具灵活更新，定制化使用的特点。通用问答：默认使用讯飞星火大模型提供的免费API（spark lite），也可以自行接入其他API或本地模型，项目中提供了接入本地ChatGLM3的API的demo。画图能力：默认使用模型。图片问答：默认使用模型。多媒体播放：默认代码查询并返回bilibili的搜索结果。天气查询：默认使用代码查询并返回API的结果。BrainGPT1。

2024-06-01 17:41:14 1279

原创多模态数学推理数据集：MATH-V和MATHVISTA

这里选取了两篇多模态数学推理数据集的代表工作MATH-V和MATHVISTA，均是今年2024年发表的工作。前者是港中大的工作，后者是加利福尼亚大学洛杉矶分校的工作。

2024-05-18 12:26:39 2656

原创使用在线工具等方式下载推特视频

【代码】使用在线工具等方式下载推特视频。

2024-05-16 09:54:08 3020

原创 python实现把doc文件批量转化为docx

【代码】python实现把doc文件批量转化为docx。

2024-05-10 18:45:14 813

原创 Python画图时好看的颜色列表，7个颜色

在Python中，使用matplotlib库可以画出各种图表，并且可以自定义颜色。可以根据自己的喜好和图表的需求选择适合的颜色列表。

2024-05-06 20:11:55 3661 2

原创 python实现字符串转义

【代码】python实现字符串转义。

2024-05-04 15:14:47 537

原创 simpletex的api调用代码

【代码】simpletex的api调用代码。

2024-04-22 23:36:02 507

原创 Python实现将文件夹下的所有pdf文件合并成一个pdf文件，并用文件夹名字命名

【代码】Python实现将文件夹下的所有pdf文件合并成一个pdf文件，并用文件夹名字命名。

2024-04-19 21:59:46 724

原创 Python遍历文件夹（包括子文件夹）下所有zip文件进行解压

【代码】Python遍历文件夹（包括子文件夹）下所有zip文件进行解压。

2024-04-15 21:18:00 719 2

原创 python递归统计文件夹下pdf文件的数量

【代码】python递归统计文件夹下pdf文件的数量。

2024-04-14 16:43:05 547 2

原创 python调用Microsoft Word把文件夹下所有docx或doc批量转化为PDF

请注意，这个脚本会关闭Word应用程序，但在某些情况下，Word进程可能会留在后台。为了避免这种情况，你可以在转换完成后确保Word进程被完全关闭。此外，由于这个方法依赖于Microsoft Word的COM接口，它只能在安装了Microsoft Word的Windows系统上运行。函数接受一个目录路径作为参数，并遍历该目录中的所有DOC和DOCX文件，将它们转换为PDF文件。首先，确保你的系统上安装了Microsoft Word。库打开Word应用程序，打开指定的Word文档，并将其另存为PDF格式。

2024-04-14 13:27:01 730

原创计算机常见的六大会议介绍：CVPR/ICCV/ECCV；NeurIPS/ICML/ICLR

CVPR、ICCV和ECCV是计算机视觉领域顶级的三个国际会议，而NeurIPS、ICML和ICLR则是机器学习领域最具影响力的三个国际会议。

2024-04-13 22:34:56 5653

原创 Mathpix和Simpletex对比

在不超过 15 的素数中，随机选取 2 个不同的数，则这 2 个数的积是偶数的概率是 ( )\quad ( a\in \mathbb{R} $,i为虚数单位),的值为( ) A. l B.2 C.3 D.4。, 则实数 m 的值为( ) A.C.1 D.25. 已知向量。复数$z= \alpha+是 z 的共轭复数，若。

2024-04-09 13:00:23 1864

原创基于频繁模式挖掘的 GCC 编译时能耗演化优化算法

基于频繁模式挖掘的 GCC 编译时能耗演化优化算法1.摘要18年我尊爱的导师发在软件学报上的一篇论文。演化算法通过搜寻 GCC 编译器最优编译选项集对可执行代码的能耗进行改进,以达到编译时优化嵌入式软件能耗的目的.但这类算法未考虑多个编译选项之间可能存在相互影响,导致了其解质量不高且收敛速度慢的问题.针对这一不足,本文设计了一种基于频繁模式挖掘的文化基因算法 MA-FP,在演化过程中利用频繁模式挖掘得到出现频度高且对能耗有显著改进效果的一组编译选项,并以此作为启发式信息设计了“增添”和“删减”两种变异算

2024-03-12 15:34:23 822

原创（一区）基于模型的连续和离散全局优化方法

Model-based methods for continuous and discrete global optimization1.摘要本文综述了下基于模型的连续和离散全局优化方法，并提出了一种叠加替代信息的新方法。2.介绍比较水。。作者说，本文是首次尝试提供对连续和离散建模方法的可理解的调查和分类。由于离散领域的MBO是一个相对较新的研究课题，因此引入了处理离散结构的六种策略。在描述了这些策略如何作为应用MBO的指导方针之后，本文讨论了替代模型的集合作为MBO的最新和很有前途的方法。3.分

2024-03-12 15:33:33 448

原创（顶会）组合结构的贝叶斯优化

Bayesian Optimization of Combinatorial Structures1.摘要本文提出了一个算法(BOCS)，它基于一个自适应的、可扩展的模型，即使数据稀缺，也能识别有用的组合结构。我们的采集函数率先使用半定编程来实现效率和可伸缩性。实验结果表明，该算法的性能始终优于其他组合方法和贝叶斯优化方法。2.介绍本文的主要贡献是：一种获得获取函数近似优化器的新方法，利用凸优化的算法思想来实现可伸缩性和效率。该方法克服了许多采集函数对大型组合领域所固有的有限的可扩展性。我们提

2024-03-12 15:32:35 398

原创 torchrun常见参数

【代码】torchrun常见参数。

2024-03-12 15:30:24 4057

glm-4-9b-chat-1m模型代码文件

2024-06-10

Qwen2-MOE-57B-A14B模型文件

2024-06-09

Qwen2模型代码文件

2024-06-09

大模型结构介绍，chatglm2模型的创新点

目录 1.GML核心创新 2.GML网络创新 3.ChatGML2的新改动 4.ChatGML2的微调

2023-10-30

大模型指令微调概述，大模型微调简单介绍ppt

目前学术界一般将NLP任务的发展分为四个阶段即NLP四范式：第一范式：基于传统机器学习模型的范式，如 tf-idf 特征+朴素贝叶斯等机器算法；第二范式：基于深度学习模型的范式，如 word2vec 特征 + LSTM 等深度学习算法，相比于第一范式，模型准确有所提高，特征工程的工作也有所减少；第三范式：基于预训练模型 + fine-tuning的范式，如 BERT + finetuning 的NLP任务，相比于第二范式，模型准确度显著提高，但是模型也随之变得更大，但小数据集就可训练出好模型；第四范式：基于预训练模型 + Prompt + 预测的范式，如 BERT + Prompt 的范式相比于第三范式，模型训练所需的训练数据显著减少。

2023-10-30

大模型结构介绍，从Transformer到llama，再到llama2

大模型结构介绍

2023-10-30

免费领取阿里云资源部署大模型ChatGLM2，可以训练

免费获得阿里云独家资源，以部署ChatGLM2大型模型，并享受卓越的微调能力。我们以用户为中心，提供了全面的手把手教学，无论您是初学者还是专家，都能轻松掌握使用这一超级福利的技巧。 ChatGLM2大模型不仅强大，而且多功能。您可以根据自己的需求对模型进行微调，以满足特定的应用场景。无论您是构建聊天机器人、自然语言处理应用还是进行大规模数据分析，这一资源都将是您的强大工具。此外，我们为您提供了持续的技术支持和资源更新，以确保您的项目始终保持在技术领域的前沿。无需担心高昂的费用，免费领取这些资源，让您在各种领域中实现更多潜力。加入我们，开启您的数据科学和人工智能之旅，体验超级福利的独特魅力。"

2023-10-30

大模型前世今生-参考文献表

2023-10-23

Friedman检验用到的F分布表，csv格式

用于Friedman检验，查其关键值，用于比较是否有显著差异

2023-01-10

Nemenyi的q-\alpha值的csv表，包括了0.05和0.1置信水平

Nemenyi的q_{\alpha}值的csv表，包括了0.05和0.1置信水平

2023-01-10

自动计算元旦倒计时代码

自动计算元旦倒计时代码，python版本，可以直接运行，还带有注释方便使用和修改

2022-12-23

NSGA-II多目标优化算法小白详细介绍ppt

非支配排序，拥挤度计算，pareto前沿，A Fast and Elitist Multi-objective Genetic Algorithm:NSGA-II NSGA算法 NSGA算法缺陷 NSGA-II算法总结 1. 快速非支配排序法将时间复杂度改进为O(MN2)； 2.使用拥塞距离代替代替共享函数算法保持种群多样性；引入精英保留策略。非支配排序的复杂度较高: O(MN3) （M是目标函数的个数，N是种群大小)；缺少精英保留策略；需要人为指定共享参数σshare（共享小生境步骤）。 NSGA： nondominated sorting genetic algorithms-非支配排序遗传算法 nondominated：非支配例：回家，两目标（费用，时间），均越小越好动车A（270 , 7），普快B（120 , 10），飞机C（240，2） C（240，2）支配A（270 ， 7）; A（270 , 7）被C（240，2）支配; B（120 , 10）和C（240，2）不可比，即非支配。目的：得到一组非支配的解--Pareto最优解集。

2022-12-21

Transformer深度讲解，进一步给出其在NLP和CV下的发展，共95页ppt，全网最好的讲解，没有之一

1.Transformer背景介绍 2.Transfromer整体架构 3.Transformer输入部分 4.Transfromer的编码器 5.Transfromer的解码器 6.Transformer输出部分 7.Transfromer其他部分 1.GPT-1 和 Bert 2.GPT-2 3.GPT-3 Transformer在深度学习环境下背景： 17年自Attention is all you need提出后，开始在NLP（自然语言处理）领域大放异彩 20年后，开始在CV领域发光，到现在基本一统天下了其在NLP和CV领域下的许多分类、分割、检测等任务下均刷榜总结一下Transformer模型。从论文本身来看，其最大的创新在于提出的注意力机制，即多头注意力层，并嵌入到一个模块化可堆叠的模型结构中。一开始Transformer被用于机器翻译，但它也能够用在几乎所有的NLP任务上。自它之后，整个深度学习重心开始转向NLP方面。 4..InstructGPT和ChatGPT 1.VIT 2.Clip与DallE-1 3.DiffusionModel和DallE-2

2022-12-21

GNN，GCN，图神经网络深度讲解100页ppt 包括基础的GNN和其多个变体

PART ONE/为什么需要图神经网络 PART TWO/什么是图神经网络（包括图的基本知识，及基本GNN的操作） PART THREE/图神经网络的变体（图神经网络的3个变体，图卷积神经网络（又可分为基于空间域的图卷积神经网络和基于频域的图卷积神经网络），基于注意力的图神经网络，基于自编码器的图神经网络）。包括DCNN（Diffusion-Convolution Neural Network、NN4G（Neural Networks for Graph）、MPNN：Message Passing Neural Network、GAT （Graph Attention Network）、图自编码器（graph autoencoder，GAE）、变分图自编码器（variational graph autoencoder，VGAE） PART FOUR/应用，在自然语言处理方面的应用，在计算机视觉方面的应用，在推荐系统方面的应用，在预测问题方面的应用

2022-12-19

CNN卷积神经网络讲解50多页PPT 卷积核，感受野，池化核多原理讲解

1.CNN基础结构 2.卷积操作细节讲解 3.图像基础知识 4.池化操作可以不可以模仿人类大脑的这个特点，构造多层的神经网络，较低层的识别初级的图像特征，若干底层特征组成更上一层特征，最终通过多个层级的组合，最终在顶层做出分类呢？答案是肯定的，这也是许多深度学习算法（包括CNN）的灵感来源

2022-11-22

自动编码器，多种自编码器深入浅出介绍，包括SAE，CAE，DAE，VAE

1.自编码器简介，包括（1.1什么是自编码器，1.2自编码器有什么用，1.3怎样构建自编码器，1.4自编码器及其变体） 2.稀疏自编码器(SAE)，包括（2.1为什么要有稀疏自编码器，2.2稀疏自编码器介绍，2.3稀疏自编码器原理，2.4与自编码器的区别） 3.收缩自编码器(CAE)，包括（3.1 预备知识，3.2 CAE目标，3.3 CAE构造） 4.去噪自编码器(DAE)，包括（4.1什么是去噪自编码器，4.2去噪自编码器的结构） 5.变分自编码器(VAE)，包括（5.1为什么用变分自编码器，5.2变分自编码器的结构）

2022-11-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

glm-4-9b-chat-1m模型代码文件

Qwen2-MOE-57B-A14B模型文件

Qwen2模型代码文件

大模型结构介绍，chatglm2模型的创新点

大模型指令微调概述，大模型微调简单介绍ppt

大模型结构介绍，从Transformer到llama，再到llama2

免费领取阿里云资源部署大模型ChatGLM2，可以训练

大模型前世今生-参考文献表

Friedman检验用到的F分布表，csv格式

Nemenyi的q-\alpha值的csv表，包括了0.05和0.1置信水平

自动计算元旦倒计时代码

NSGA-II多目标优化算法小白详细介绍ppt

Transformer深度讲解，进一步给出其在NLP和CV下的发展，共95页ppt，全网最好的讲解，没有之一

GNN，GCN，图神经网络深度讲解100页ppt 包括基础的GNN和其多个变体

CNN卷积神经网络讲解50多页PPT 卷积核，感受野，池化核多原理讲解

自动编码器，多种自编码器深入浅出介绍，包括SAE，CAE，DAE，VAE

生成对抗网络GAN（ Generative Adversarial Networks）63PPT，GAN原理，介绍，变体详细

RNN循环神经网络PPT，涉及到LSTM，GRU、BRNN、BLSTM等等介绍，适合开会用，总共有50页，干货满满

全连接神经网络（多层感知机）PPT，可以直接开会讲

2009B眼科病床合理安排.rar

javaWeb书城项目源码

2006B艾滋病疗法评价.rar

最佳灾情巡视路线优秀论文.rar

2016年国赛A题题目.rar

2016年国赛A题“系泊系统的设计”附件

Lingo11.zip

PDF转换软件.zip

空空如也