- 博客(218)
- 资源 (4)
- 收藏
- 关注
原创 LongAlign:ChatGLM 团队发布的超长文指令数据及训练评估方案
这是一个由清华 ChatGLM 团队提出的长上下文指令微调数据(64k)、模型训练策略、评测基准 LongBench-Chat 一条龙方案。
2024-08-24 18:07:29 1005
原创 L-Eval:一个60k左右长文评测数据集
多项选择题(coursera, quality, tpo)数学问题(gsm100)话题检索(topic_retrieval)各种形式的问题回答(financial_qa, legal_contract_qa, multidoc_qa, natural_question, narrative_qa, scientific_qa)
2024-08-24 00:36:47 1032
原创 Qwen2 技术报告(中文版)
这篇技术报告介绍了Qwen2系列,这是我们大型语言模型和大型多模态模型系列中的最新成员。我们发布了一套全面的基础和指令调整语言模型,参数范围从0.5b 到 72b,包括稠密模型和专家混合模型。Qwen2在包括语言理解、生成、多语言能力、编码、数学和推理在内的多个基准测试中,超越了大多数以前的开放权重模型,包括其前身Qwen1.5,并且与专有模型表现出竞争力。
2024-07-17 10:23:21 3966
原创 lr_scheduler_type 参数取值:学习率调度器(Learning Rate Scheduler)和优化器(Optimizer)
优化器和学习率调度器是 LLM 训练中的两个重要组件。优化器负责参数更新,而学习率调度器通过动态调整学习率来优化训练过程。
2024-05-30 11:52:11 2157
原创 给同学讲 Qwen2 大模型源码的记录
好久没接触大模型的老同学要做一个PPT分享大模型技术进展,然后来一起以 Qwen2 源码为例子探讨了一下大模型的一些技术细节。
2024-04-17 15:21:24 2497
原创 缓解大模型幻觉问题的解决方案
描述了幻觉的定义、产生原因、评测方法;并从产品侧、数据侧、模型侧介绍如何缓解大模型幻觉,并介绍了通过高级 prompt 和 RAG 等方法进行大模型幻觉的缓解。
2023-10-29 22:14:30 2161
原创 vLLM大模型推理加速方案原理(PagedAttention)
vLLM 用于大模型并行推理加速,核心是通过 PagedAttention 对注意力 key 和 value 进行内存管理
2023-07-12 21:45:50 18056
原创 图像超分辨率模型:Real-ESRGAN | 论文阅读+实战记录
最近需要一个超分的模型,经过调研准备用 Real-ESRGAN。特此记录论文阅读和实战过程。
2022-11-23 11:23:47 3029 3
原创 AI 作画:Stable Diffusion 模型原理与实践
本文首先简单介绍 Stable Diffusion 模型结构 Latent Diffusion 的论文和博客,然后介绍模型的训练和推理技术细节(不含数学推导),接着介绍几个 prompt 搜索引擎等实用工具,最后简单介绍 AI 作画(图像生成)的发展史,并测试了 Stable Diffusion 不同风格和 prompt 的生成样例。
2022-10-17 11:11:27 2345
原创 基于 huggingface diffuser 库本地部署 Stable diffusion
Stable Diffusion 是用 LAION-5B 的子集(图像大小为512*512)训练的扩散模型。此模型冻结 CLIP 的 ViT-L/14 文本编码器建模 prompt text。模型包含 860M UNet 和123M 文本编码器,可运行在具有至少10GB VRAM 的 GPU 上。接下来实战一下本地部署。
2022-10-10 15:02:04 14453 7
原创 CLIP论文阅读、zero-shot实验、linear prob实验记录
记录 CLIP 论文阅读、zero-shot实验(直接推理)、linear probe实验(冻结CLIP抽特征只训练分类层)。
2022-09-26 15:22:21 3926 2
原创 m1 mac 使用 obs + BlackHole 内录电脑音频
该方案的原理是将电脑音频同时输出到你的设备(耳机、扬声器等)+ BlackHole。然后让 OBS 获取 BlackHole 的音频,就相当于获取了电脑音频。第三步,打开 “音频midi设置”,创建多输出设备,勾选当前设备+BlackHole 2ch。,填个邮箱地址,会收到下载地址(下载 2ch 的版本就行,也就是2声道)。直接 obs 是内录不了的,由于 macOS 的限制,无法获取桌面音频。第四步,打开“声音”设置,选择刚创建的聚集设备为输出设备。于是使用 BlackHole(
2022-09-04 20:42:51 6137 1
原创 Python代码部署的三种加密方案:代码混淆、代码编译、代码打包
最近需要源码部署一个项目,因此探索一下保护源码的方式,由简单到复杂主要总结为以下三大类:- 代码混淆:主要是改变一些函数名、变量名- 代码打包:思路是把Python代码打包成 .exe 的可执行文件- 代码编译:思路是将Python代码编译成C,然后编译成动态链接库文件(linux的.so、windows的.dll)
2022-08-23 19:26:25 13133 1
原创 记录一下 cuda、torchinfo、gpustat 相关知识
记录一下关于 cuda 显存分配、使用 torchinfo 查看模型参数量,以及使用 gpustat 查看显存占用及进程信息等知识。
2022-08-23 11:25:56 1010
原创 huggingface Tokenizers 官网文档学习:tokenizer训练保存与使用
本文分享学习 huggingface Tokenizers 库记录。我分成了五大主题:- 从头快速训练一个 tokenzier- 如何使用预训练好的 tokenzier- Tokenization 四大过程详解- BERT tokenizer 训练保存编解码全流程- 语料库分批加载与处理...
2022-08-12 19:33:48 9475 4
原创 huggingface Tokenizers 官网文档学习:分词算法分类与五个子词级分词算法
首先介绍三大类分词算法:词级、字符级、子词级算法;然后介绍五种常用的子词级(subword )算法:BPE、BBPE、WordPiece、Unigram、SentencePiece。
2022-08-12 11:20:29 1618
原创 使用 Gradio 在 huggingface 创建应用 Space
之前内部用 swagger + flask(flasgger) 来演示模型功能,感觉 flasgger 做出来太丑了,而且配置起来麻烦,所以寻找替代方案。streamlit和gradio。gradio 跟 huggingface 仿佛有某种交易,两边官方文档商业互吹,所以感觉部署到 huggingface 时适配起来应该更顺滑。于是学习一下 gradio,并把要演示的几个模型使用 gradio 做成 app 的形式。...
2022-08-04 17:43:16 6624 6
原创 开源协议(Open Source License)
创建 Github 公开项目时,通常选择开源协议。本文整理了笔者收集的几个开源协议相关的直观图表。
2022-08-03 15:38:13 1438
原创 frp:开源内网穿透工具
frp是一个专注于内网穿透的高性能的反向代理应用,支持TCP、UDP、HTTP、HTTPS等多种协议。可以将内网服务以安全、便捷的方式通过具有公网IP节点的中转暴露到公网。官网GitHubhttps官网文档https。
2022-07-26 20:15:06 3739
原创 基于 transformers 的 generate() 方法实现多样化文本生成:参数含义和算法原理解读
本文解读一下 huggingface transformers 库的 generate() 函数中各个参数的含义,以及常用的 Greedy Search、Beam Search、Sampling(Temperature、Top-k、Top-p)等各个 decoding 算法的原理。
2022-07-25 17:26:49 54263 14
原创 Evaluate:huggingface评价指标模块入门详细介绍
evaluate 是huggingface在2022年5月底搞的一个用于评估机器学习模型和数据集的库,需 python 3.7 及以上。包含三种评估类型:pip安装:源码安装:检查是否装好(会输出预测结果Dict):三、使用3.1 load方法evaluate中的每个指标都是一个单独的Python模块,通过 evaluate.load()(点击查看文档) 函数快速加载,其中load函数的常用参数如下:3.2 列出可用指标list_evaluation_modules 列出官方(和社区)里有哪些
2022-06-23 09:59:12 10675 3
原创 Transformer、BERT、GPT 论文精读笔记
前言最近被安排带几个学生搞基于预训练模型的文本生成课题,想给他们准备点学习资料,找的是沐神在B站的论文精读,于是自己先看了一遍,对视频质量把把关(事实证明根本不用把关,并感慨自己读研时为啥没有遇到这么nice的视频),顺便借此机会重温一下这几篇经典 paper。TransformerAttention is all you need.论文地址:https://arxiv.org/pdf/1706.03762.pdf视频地址:https://www.bilibili.com/video/BV1pu
2022-05-03 13:44:10 1290
原创 sqlite 日期字段加一天
背景介绍需要写一个更改时间字段的功能,要用到 sql 语句操作 sqlite 数据库,由于 sqlite 不支持 dateadd 等函数,只能用其他方法,于是找到了 datetime() 函数。使用方法对 review 表的 add_time 字段统一增加 1天,执行以下语句:update review set add_time=DATETIME(add_time, ‘+1 day’);执行前:执行后:扩展知识SQLite 支持以下五个日期和时间函数:date(timestrin
2022-04-15 22:49:32 2844
原创 m1 mac 安装和使用 homebrew 解决 scrapy 运行时OpenSSL的问题
背景最近需要在 m1 mac 上用 scrapy 爬点数据,用 miniconda 装了个虚拟环境后,运行 scrapy shell 测试 https 请求时,报错如下:builtins.MemoryError: Cannot allocate write+execute memory for ffi.callback(). You might be running on a system that prevents this. For more information, see https://cf
2022-04-03 14:06:27 2475 4
文本摘要 CNN/DailyMail 原始数据集
2022-04-15
[PDF]Neural Network Methods in Natural Language Processing 基于深度学习的自然语言处理英文原版
2018-11-23
希拉里 克林顿 邮件 自然语言处理 Hillary Clinton's Emails
2018-07-19
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人