木尧大兄弟-CSDN博客

原创 Qwen3-VL 评测结果合并对比

本文整合了Qwen3-VL系列大/中/小三种尺寸模型的评测结果，通过对比分析得出一些结论供读者参考。

2025-11-30 22:12:32 187

原创 Qwen3-VL-30B-A3B-Thinking 多模态大模型 Chat 模版分析

本文介绍了Qwen3-VL多模态模型的聊天模板，支持文本/图像/视频处理、工具调用和推理功能。模板采用结构化设计，包含以下核心组件：1）宏定义模块处理多模态内容渲染；2）系统提示词模块支持工具定义；3）多步工具调用检测机制；4）主消息循环处理用户/助手对话。特别实现了推理标签自动添加功能，支持复杂交互场景。该模板通过清晰的标记系统（如<|vision_start|>、<think>等）实现多模态内容的精确识别和处理。

2025-10-14 00:21:45 464

原创 windows启动wsl失败解决方案

以管理员权限打开 Windows PowerShell 或命令提示符（CMD）执行以下命令。

2025-08-27 13:41:56 456

原创 linux创建虚拟内存

创建8GB虚拟内存步骤：使用dd命令创建8GB交换文件设置600权限并格式化为swap空间通过swapon启用并验证添加至/etc/fstab实现开机自动挂载虚拟内存作用：扩展内存容量（硬盘充当临时内存）隔离进程内存空间保障安全支持运行超物理内存的大型程序通过动态分配优化内存效率注：虚拟内存速度远慢于物理内存，仅适合作为临时补充，频繁使用会导致性能下降。

2025-08-06 23:43:21 471

原创 Cubase 通过 MIDIPLUS MIDI 键盘进行走带控制的设置方法

本文介绍如何将Midiplus X系列键盘映射到Cubase软件的操作步骤，适用于X6 Pro、X8 Pro、X4 Pro mini和X6 Pro mini型号。

2025-06-16 00:47:42 1720

原创 OpenCodeReasoning：英伟达用 R1 蒸馏的 Python 代码 SFT 数据集

这篇论文主要研究如何通过大规模合成数据集来提升大型语言模型（LLMs）在竞赛编程任务中的推理能力。论文的主要目标是构建一个大规模的、高质量的监督微调（SFT）数据集，并通过该数据集显著提升模型在竞赛编程任务中的表现，同时公开数据集和相关细节，推动社区研究。

2025-04-21 17:40:35 1032

原创 pdsh：一个用于并行执行命令的工具

pdsh可以在多个主机上并行地执行命令，从而显著减少总执行时间。支持多种连接方式（如SSH、rsh等），通过不同的模块实现。支持通过列表、文件或模式选择目标主机。每个主机的输出前都会加上主机名，以便区分来自不同机器的结果。由于安全性方面的显著差异，ssh已经成为远程登录和命令执行的标准工具，并且在大多数环境中取代了rsh。尽管rsh在特定受控环境下仍可能被使用，但对于任何需要通过公共网络进行通信的场景，ssh都是首选。

2024-10-08 17:55:19 1931

原创 LongAlign：ChatGLM 团队发布的超长文指令数据及训练评估方案

这是一个由清华 ChatGLM 团队提出的长上下文指令微调数据（64k）、模型训练策略、评测基准 LongBench-Chat 一条龙方案。

2024-08-24 18:07:29 2255

原创 L-Eval：一个60k左右长文评测数据集

多项选择题（coursera, quality, tpo）数学问题（gsm100）话题检索（topic_retrieval）各种形式的问题回答（financial_qa, legal_contract_qa, multidoc_qa, natural_question, narrative_qa, scientific_qa）

2024-08-24 00:36:47 3110

原创 InfiniteBench（∞Bench）: 一个100K+长序列评测数据集

InfiniteBench，清华提出的100K+超长文评测数据集。

2024-08-23 17:55:49 1923

原创 CLongEval：一个中文长文能力评测 benchmark

CLongEval，7个任务，几千条数据。

2024-08-23 15:07:05 1810

原创 Qwen2 技术报告（中文版）

这篇技术报告介绍了Qwen2系列，这是我们大型语言模型和大型多模态模型系列中的最新成员。我们发布了一套全面的基础和指令调整语言模型，参数范围从0.5b 到 72b，包括稠密模型和专家混合模型。Qwen2在包括语言理解、生成、多语言能力、编码、数学和推理在内的多个基准测试中，超越了大多数以前的开放权重模型，包括其前身Qwen1.5，并且与专有模型表现出竞争力。

2024-07-17 10:23:21 15333

原创大模型中 KV Cache 原理及显存占用分析

大模型推理阶段 KV Cache 的原理及显存占用情况。

2024-07-12 00:02:23 6850

原创 glm-4 联网搜索 api 测试

glm-4 联网搜索api测试

2024-07-11 18:11:12 1832

原创 lr_scheduler_type 参数取值：学习率调度器（Learning Rate Scheduler）和优化器（Optimizer）

优化器和学习率调度器是 LLM 训练中的两个重要组件。优化器负责参数更新，而学习率调度器通过动态调整学习率来优化训练过程。

2024-05-30 11:52:11 6586

原创基于 vLLM 搭建 DeepSeek-V2 Chat 服务

vllm 启动 DeepSeek v2 chat 服务

2024-05-23 15:39:31 4232 2

原创大模型高频问题排行：基于世界分布的指令微调数据集 lmsys-chat-1m 分析

基于 LMSYS-CHAT-1M 数据集分析大模型高频问题。

2024-05-17 16:58:11 1081

原创给同学讲 Qwen2 大模型源码的记录

好久没接触大模型的老同学要做一个PPT分享大模型技术进展，然后来一起以 Qwen2 源码为例子探讨了一下大模型的一些技术细节。

2024-04-17 15:21:24 5269 2

原创 Yi-34B Tokenizer 分析

【代码】Yi-34B Tokenizer 分析。

2023-12-26 19:38:00 3910

原创缓解大模型幻觉问题的解决方案

描述了幻觉的定义、产生原因、评测方法；并从产品侧、数据侧、模型侧介绍如何缓解大模型幻觉，并介绍了通过高级 prompt 和 RAG 等方法进行大模型幻觉的缓解。

2023-10-29 22:14:30 4661

原创 baichuan2 chat模型sft指令微调数据格式分析

百川2指令微调数据格式分析

2023-09-27 16:30:27 3345

原创 pdsh 2.29 安装

pdsh安装

2023-07-11 17:54:15 837

原创 A100单机多卡大模型训练踩坑记录（CUDA环境、多GPU卡住且显存100%）

大模型A100单机多卡训练踩坑记录

2023-04-28 17:37:26 10528 2

原创 StableLM（stablelm-tuned-alpha-7b）中文能力测试

环境：2块3090（24G）基模型：GPT-NeoX。

2023-04-23 17:52:06 612

原创 Cerebras-GPT-13B 中文推理测试

直接做推理不太合适。

2023-04-21 15:30:20 950

原创使用huggingface微调预训练模型

Huggingface 微调预训练模型

2023-02-27 16:29:28 1464

原创关于 torch 的 device id 与真实 GPU id 的关系

如题

2022-12-13 18:38:39 1878

原创图像超分辨率模型：Real-ESRGAN | 论文阅读+实战记录

最近需要一个超分的模型，经过调研准备用 Real-ESRGAN。特此记录论文阅读和实战过程。

2022-11-23 11:23:47 4218 3

原创 AI 作画：Stable Diffusion 模型原理与实践

本文首先简单介绍 Stable Diffusion 模型结构 Latent Diffusion 的论文和博客，然后介绍模型的训练和推理技术细节（不含数学推导），接着介绍几个 prompt 搜索引擎等实用工具，最后简单介绍 AI 作画（图像生成）的发展史，并测试了 Stable Diffusion 不同风格和 prompt 的生成样例。

2022-10-17 11:11:27 2669

原创 Linux 服务器普通用户安装 tree 命令

分到一台 Ubuntu 新服务器，需要装一下 tree 命令，特此记录。

2022-10-13 16:50:36 1525

原创基于 huggingface diffuser 库本地部署 Stable diffusion

Stable Diffusion 是用 LAION-5B 的子集（图像大小为512*512）训练的扩散模型。此模型冻结 CLIP 的 ViT-L/14 文本编码器建模 prompt text。模型包含 860M UNet 和123M 文本编码器，可运行在具有至少10GB VRAM 的 GPU 上。接下来实战一下本地部署。

2022-10-10 15:02:04 17481 9

原创 CLIP论文阅读、zero-shot实验、linear prob实验记录

记录 CLIP 论文阅读、zero-shot实验（直接推理）、linear probe实验（冻结CLIP抽特征只训练分类层）。

2022-09-26 15:22:21 5815 2

原创 openssl enc 加密/解密文件

OpenSSL 可用密码或者秘钥方式进行加密，近期用到用密码进行加密解密，故记录之。

2022-09-06 20:13:02 5895

原创 m1 mac 使用 obs + BlackHole 内录电脑音频

该方案的原理是将电脑音频同时输出到你的设备（耳机、扬声器等）+ BlackHole。然后让 OBS 获取 BlackHole 的音频，就相当于获取了电脑音频。第三步，打开 “音频midi设置”，创建多输出设备，勾选当前设备+BlackHole 2ch。，填个邮箱地址，会收到下载地址（下载 2ch 的版本就行，也就是2声道）。直接 obs 是内录不了的，由于 macOS 的限制，无法获取桌面音频。第四步，打开“声音”设置，选择刚创建的聚集设备为输出设备。于是使用 BlackHole（

2022-09-04 20:42:51 7386 2

原创 Python代码部署的三种加密方案：代码混淆、代码编译、代码打包

最近需要源码部署一个项目，因此探索一下保护源码的方式，由简单到复杂主要总结为以下三大类：- 代码混淆：主要是改变一些函数名、变量名- 代码打包：思路是把Python代码打包成 .exe 的可执行文件- 代码编译：思路是将Python代码编译成C，然后编译成动态链接库文件（linux的.so、windows的.dll）

2022-08-23 19:26:25 22319 1

原创记录一下 cuda、torchinfo、gpustat 相关知识

记录一下关于 cuda 显存分配、使用 torchinfo 查看模型参数量，以及使用 gpustat 查看显存占用及进程信息等知识。

2022-08-23 11:25:56 1201

原创 huggingface Tokenizers 官网文档学习：tokenizer训练保存与使用

本文分享学习 huggingface Tokenizers 库记录。我分成了五大主题：- 从头快速训练一个 tokenzier- 如何使用预训练好的 tokenzier- Tokenization 四大过程详解- BERT tokenizer 训练保存编解码全流程- 语料库分批加载与处理...

2022-08-12 19:33:48 12925 5

原创 huggingface Tokenizers 官网文档学习：分词算法分类与五个子词级分词算法

首先介绍三大类分词算法：词级、字符级、子词级算法；然后介绍五种常用的子词级（subword ）算法：BPE、BBPE、WordPiece、Unigram、SentencePiece。

2022-08-12 11:20:29 2083

原创使用 Gradio 在 huggingface 创建应用 Space

之前内部用 swagger + flask（flasgger）来演示模型功能，感觉 flasgger 做出来太丑了，而且配置起来麻烦，所以寻找替代方案。streamlit和gradio。gradio 跟 huggingface 仿佛有某种交易，两边官方文档商业互吹，所以感觉部署到 huggingface 时适配起来应该更顺滑。于是学习一下 gradio，并把要演示的几个模型使用 gradio 做成 app 的形式。...

2022-08-04 17:43:16 7458 6

原创开源协议（Open Source License）

创建 Github 公开项目时，通常选择开源协议。本文整理了笔者收集的几个开源协议相关的直观图表。

2022-08-03 15:38:13 1740

文本摘要 CNN/DailyMail 原始数据集

文本摘要 CNN/DailyMail 原始数据集。压缩包内含 cnn_stories.tgz 和 dailymail_stories.tgz 。可用于抽取式摘要（Extractive Summarization）任务以及生成式摘要（Abstractive Summarization）旨在方便国内的研究者们获取该数据集。技术细节可参考博文：https://blog.csdn.net/muyao987/article/details/104949367

2022-04-15

希拉里克林顿邮件自然语言处理 Hillary Clinton's Emails

希拉里克林顿的电子邮件，整理了近7,000页克林顿的电子邮件，用作机器学习自然语言处理的语料。

2018-07-19

[PDF]Neural Network Methods in Natural Language Processing 基于深度学习的自然语言处理英文原版

Neural networks are a family of powerful machine learning models. This book focuses on the application of neural network models to natural language data. The first half of the book (Parts I and II) covers the basics of supervised machine learning and feed-forward neural networks, the basics of working with machine learning over language data, and the use of vector-based rather than symbolic representations for words. It also covers the computation-graph abstraction, which allows to easily define and train arbitrary neural networks, and is the basis behind the design of contemporary neural network software libraries. The second part of the book (Parts III and IV) introduces more specialized neural network architectures, including 1D convolutional neural networks, recurrent neural networks, conditioned-generation models, and attention-based models. These architectures and techniques are the driving force behind state-of-the-art algorithms for machine translation, syntactic parsing, and many other applications. Finally, we also discuss tree-shaped networks, structured prediction, and the prospects of multi-task learning.

2018-11-23

MFC类库详解.chm

MFC类库详解，以前做飞机大战项目时经常用。挺好的，对VS下的MFC编程有一定好处。

2015-08-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人