自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

木尧大兄弟

自然语言处理/深度学习/编曲混音

  • 博客(218)
  • 资源 (4)
  • 收藏
  • 关注

原创 LongAlign:ChatGLM 团队发布的超长文指令数据及训练评估方案

这是一个由清华 ChatGLM 团队提出的长上下文指令微调数据(64k)、模型训练策略、评测基准 LongBench-Chat 一条龙方案。

2024-08-24 18:07:29 1005

原创 L-Eval:一个60k左右长文评测数据集

多项选择题(coursera, quality, tpo)数学问题(gsm100)话题检索(topic_retrieval)各种形式的问题回答(financial_qa, legal_contract_qa, multidoc_qa, natural_question, narrative_qa, scientific_qa)

2024-08-24 00:36:47 1032

原创 InfiniteBench(∞Bench): 一个100K+长序列评测数据集

InfiniteBench,清华提出的100K+超长文评测数据集。

2024-08-23 17:55:49 626

原创 CLongEval:一个中文长文能力评测 benchmark

CLongEval,7个任务,几千条数据。

2024-08-23 15:07:05 985

原创 Qwen2 技术报告(中文版)

这篇技术报告介绍了Qwen2系列,这是我们大型语言模型和大型多模态模型系列中的最新成员。我们发布了一套全面的基础和指令调整语言模型,参数范围从0.5b 到 72b,包括稠密模型和专家混合模型。Qwen2在包括语言理解、生成、多语言能力、编码、数学和推理在内的多个基准测试中,超越了大多数以前的开放权重模型,包括其前身Qwen1.5,并且与专有模型表现出竞争力。

2024-07-17 10:23:21 3966

原创 大模型中 KV Cache 原理及显存占用分析

大模型推理阶段 KV Cache 的原理及显存占用情况。

2024-07-12 00:02:23 1132

原创 glm-4 联网搜索 api 测试

glm-4 联网搜索api测试

2024-07-11 18:11:12 391

原创 lr_scheduler_type 参数取值:学习率调度器(Learning Rate Scheduler)和优化器(Optimizer)

优化器和学习率调度器是 LLM 训练中的两个重要组件。优化器负责参数更新,而学习率调度器通过动态调整学习率来优化训练过程。

2024-05-30 11:52:11 2157

原创 基于 vLLM 搭建 DeepSeek-V2 Chat 服务

vllm 启动 DeepSeek v2 chat 服务

2024-05-23 15:39:31 1801 2

原创 大模型高频问题排行:基于世界分布的指令微调数据集 lmsys-chat-1m 分析

基于 LMSYS-CHAT-1M 数据集分析大模型高频问题。

2024-05-17 16:58:11 577

原创 给同学讲 Qwen2 大模型源码的记录

好久没接触大模型的老同学要做一个PPT分享大模型技术进展,然后来一起以 Qwen2 源码为例子探讨了一下大模型的一些技术细节。

2024-04-17 15:21:24 2497

原创 Yi-34B Tokenizer 分析

【代码】Yi-34B Tokenizer 分析。

2023-12-26 19:38:00 3313

原创 缓解大模型幻觉问题的解决方案

描述了幻觉的定义、产生原因、评测方法;并从产品侧、数据侧、模型侧介绍如何缓解大模型幻觉,并介绍了通过高级 prompt 和 RAG 等方法进行大模型幻觉的缓解。

2023-10-29 22:14:30 2161

原创 baichuan2 chat模型sft指令微调数据格式分析

百川2指令微调数据格式分析

2023-09-27 16:30:27 2681

原创 vLLM大模型推理加速方案原理(PagedAttention)

vLLM 用于大模型并行推理加速,核心是通过 PagedAttention 对注意力 key 和 value 进行内存管理

2023-07-12 21:45:50 18056

原创 pdsh 2.29 安装

pdsh安装

2023-07-11 17:54:15 585

原创 A100单机多卡大模型训练踩坑记录(CUDA环境、多GPU卡住且显存100%)

大模型A100单机多卡训练踩坑记录

2023-04-28 17:37:26 8347 2

原创 StableLM(stablelm-tuned-alpha-7b)中文能力测试

环境:2块3090(24G)基模型:GPT-NeoX。

2023-04-23 17:52:06 405

原创 Cerebras-GPT-13B 中文推理测试

直接做推理不太合适。

2023-04-21 15:30:20 757

原创 使用huggingface微调预训练模型

Huggingface 微调预训练模型

2023-02-27 16:29:28 1165

原创 关于 torch 的 device id 与真实 GPU id 的关系

如题

2022-12-13 18:38:39 1231

原创 图像超分辨率模型:Real-ESRGAN | 论文阅读+实战记录

最近需要一个超分的模型,经过调研准备用 Real-ESRGAN。特此记录论文阅读和实战过程。

2022-11-23 11:23:47 3029 3

原创 AI 作画:Stable Diffusion 模型原理与实践

本文首先简单介绍 Stable Diffusion 模型结构 Latent Diffusion 的论文和博客,然后介绍模型的训练和推理技术细节(不含数学推导),接着介绍几个 prompt 搜索引擎等实用工具,最后简单介绍 AI 作画(图像生成)的发展史,并测试了 Stable Diffusion 不同风格和 prompt 的生成样例。

2022-10-17 11:11:27 2345

原创 Linux 服务器普通用户安装 tree 命令

分到一台 Ubuntu 新服务器,需要装一下 tree 命令,特此记录。

2022-10-13 16:50:36 1218

原创 基于 huggingface diffuser 库本地部署 Stable diffusion

Stable Diffusion 是用 LAION-5B 的子集(图像大小为512*512)训练的扩散模型。此模型冻结 CLIP 的 ViT-L/14 文本编码器建模 prompt text。模型包含 860M UNet 和123M 文本编码器,可运行在具有至少10GB VRAM 的 GPU 上。接下来实战一下本地部署。

2022-10-10 15:02:04 14453 7

原创 CLIP论文阅读、zero-shot实验、linear prob实验记录

记录 CLIP 论文阅读、zero-shot实验(直接推理)、linear probe实验(冻结CLIP抽特征只训练分类层)。

2022-09-26 15:22:21 3926 2

原创 openssl enc 加密/解密文件

OpenSSL 可用密码或者秘钥方式进行加密,近期用到用密码进行加密解密,故记录之。

2022-09-06 20:13:02 4658

原创 m1 mac 使用 obs + BlackHole 内录电脑音频

该方案的原理是将电脑音频同时输出到你的设备(耳机、扬声器等)+ BlackHole。然后让 OBS 获取 BlackHole 的音频,就相当于获取了电脑音频。第三步,打开 “音频midi设置”,创建多输出设备,勾选当前设备+BlackHole 2ch。,填个邮箱地址,会收到下载地址(下载 2ch 的版本就行,也就是2声道)。直接 obs 是内录不了的,由于 macOS 的限制,无法获取桌面音频。第四步,打开“声音”设置,选择刚创建的聚集设备为输出设备。于是使用 BlackHole(

2022-09-04 20:42:51 6137 1

原创 Python代码部署的三种加密方案:代码混淆、代码编译、代码打包

最近需要源码部署一个项目,因此探索一下保护源码的方式,由简单到复杂主要总结为以下三大类:- 代码混淆:主要是改变一些函数名、变量名- 代码打包:思路是把Python代码打包成 .exe 的可执行文件- 代码编译:思路是将Python代码编译成C,然后编译成动态链接库文件(linux的.so、windows的.dll)

2022-08-23 19:26:25 13133 1

原创 记录一下 cuda、torchinfo、gpustat 相关知识

记录一下关于 cuda 显存分配、使用 torchinfo 查看模型参数量,以及使用 gpustat 查看显存占用及进程信息等知识。

2022-08-23 11:25:56 1010

原创 huggingface Tokenizers 官网文档学习:tokenizer训练保存与使用

本文分享学习 huggingface Tokenizers 库记录。我分成了五大主题:- 从头快速训练一个 tokenzier- 如何使用预训练好的 tokenzier- Tokenization 四大过程详解- BERT tokenizer 训练保存编解码全流程- 语料库分批加载与处理...

2022-08-12 19:33:48 9475 4

原创 huggingface Tokenizers 官网文档学习:分词算法分类与五个子词级分词算法

首先介绍三大类分词算法:词级、字符级、子词级算法;然后介绍五种常用的子词级(subword )算法:BPE、BBPE、WordPiece、Unigram、SentencePiece。

2022-08-12 11:20:29 1618

原创 使用 Gradio 在 huggingface 创建应用 Space

之前内部用 swagger + flask(flasgger) 来演示模型功能,感觉 flasgger 做出来太丑了,而且配置起来麻烦,所以寻找替代方案。streamlit和gradio。gradio 跟 huggingface 仿佛有某种交易,两边官方文档商业互吹,所以感觉部署到 huggingface 时适配起来应该更顺滑。于是学习一下 gradio,并把要演示的几个模型使用 gradio 做成 app 的形式。...

2022-08-04 17:43:16 6624 6

原创 开源协议(Open Source License)

创建 Github 公开项目时,通常选择开源协议。本文整理了笔者收集的几个开源协议相关的直观图表。

2022-08-03 15:38:13 1438

原创 frp:开源内网穿透工具

frp是一个专注于内网穿透的高性能的反向代理应用,支持TCP、UDP、HTTP、HTTPS等多种协议。可以将内网服务以安全、便捷的方式通过具有公网IP节点的中转暴露到公网。官网GitHubhttps官网文档https。

2022-07-26 20:15:06 3739

原创 基于 transformers 的 generate() 方法实现多样化文本生成:参数含义和算法原理解读

本文解读一下 huggingface transformers 库的 generate() 函数中各个参数的含义,以及常用的 Greedy Search、Beam Search、Sampling(Temperature、Top-k、Top-p)等各个 decoding 算法的原理。

2022-07-25 17:26:49 54263 14

原创 Evaluate:huggingface评价指标模块入门详细介绍

evaluate 是huggingface在2022年5月底搞的一个用于评估机器学习模型和数据集的库,需 python 3.7 及以上。包含三种评估类型:pip安装:源码安装:检查是否装好(会输出预测结果Dict):三、使用3.1 load方法evaluate中的每个指标都是一个单独的Python模块,通过 evaluate.load()(点击查看文档) 函数快速加载,其中load函数的常用参数如下:3.2 列出可用指标list_evaluation_modules 列出官方(和社区)里有哪些

2022-06-23 09:59:12 10675 3

原创 Transformer、BERT、GPT 论文精读笔记

前言最近被安排带几个学生搞基于预训练模型的文本生成课题,想给他们准备点学习资料,找的是沐神在B站的论文精读,于是自己先看了一遍,对视频质量把把关(事实证明根本不用把关,并感慨自己读研时为啥没有遇到这么nice的视频),顺便借此机会重温一下这几篇经典 paper。TransformerAttention is all you need.论文地址:https://arxiv.org/pdf/1706.03762.pdf视频地址:https://www.bilibili.com/video/BV1pu

2022-05-03 13:44:10 1290

原创 sqlite 日期字段加一天

背景介绍需要写一个更改时间字段的功能,要用到 sql 语句操作 sqlite 数据库,由于 sqlite 不支持 dateadd 等函数,只能用其他方法,于是找到了 datetime() 函数。使用方法对 review 表的 add_time 字段统一增加 1天,执行以下语句:update review set add_time=DATETIME(add_time, ‘+1 day’);执行前:执行后:扩展知识SQLite 支持以下五个日期和时间函数:date(timestrin

2022-04-15 22:49:32 2844

原创 m1 mac 安装和使用 homebrew 解决 scrapy 运行时OpenSSL的问题

背景最近需要在 m1 mac 上用 scrapy 爬点数据,用 miniconda 装了个虚拟环境后,运行 scrapy shell 测试 https 请求时,报错如下:builtins.MemoryError: Cannot allocate write+execute memory for ffi.callback(). You might be running on a system that prevents this. For more information, see https://cf

2022-04-03 14:06:27 2475 4

文本摘要 CNN/DailyMail 原始数据集

文本摘要 CNN/DailyMail 原始数据集。 压缩包内含 cnn_stories.tgz 和 dailymail_stories.tgz 。 可用于抽取式摘要(Extractive Summarization)任务以及生成式摘要(Abstractive Summarization)旨在方便国内的研究者们获取该数据集。 技术细节可参考博文:https://blog.csdn.net/muyao987/article/details/104949367

2022-04-15

[PDF]Neural Network Methods in Natural Language Processing 基于深度学习的自然语言处理英文原版

Neural networks are a family of powerful machine learning models. This book focuses on the application of neural network models to natural language data. The first half of the book (Parts I and II) covers the basics of supervised machine learning and feed-forward neural networks, the basics of working with machine learning over language data, and the use of vector-based rather than symbolic representations for words. It also covers the computation-graph abstraction, which allows to easily define and train arbitrary neural networks, and is the basis behind the design of contemporary neural network software libraries. The second part of the book (Parts III and IV) introduces more specialized neural network architectures, including 1D convolutional neural networks, recurrent neural networks, conditioned-generation models, and attention-based models. These architectures and techniques are the driving force behind state-of-the-art algorithms for machine translation, syntactic parsing, and many other applications. Finally, we also discuss tree-shaped networks, structured prediction, and the prospects of multi-task learning.

2018-11-23

希拉里 克林顿 邮件 自然语言处理 Hillary Clinton's Emails

希拉里克林顿的电子邮件,整理了近7,000页克林顿的电子邮件,用作机器学习自然语言处理的语料。

2018-07-19

MFC类库详解.chm

MFC类库详解,以前做飞机大战项目时经常用。挺好的,对VS下的MFC编程有一定好处。

2015-08-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除