自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(114)
  • 问答 (1)
  • 收藏
  • 关注

原创 vLLM——使用PagedAttention加速推理

vLLM是一个用于快速LLM推理和服务的开源库。vLLM 利用,可以有效地管理注意力键和值。PagedAttention 的 vLLM 重新定义了 LLM 服务的最新水平:它提供了比 HuggingFace Transformers 高 24 倍的吞吐量,而无需任何模型架构更改。

2024-07-26 10:22:28 407

原创 VScode终端的conda有两个环境重叠

在用VScode对远程Linux服务器连接时候,终端出现类似于。然后重启VScode环境就回归正常了。

2024-07-19 17:22:14 102

原创 (第三期)书生大模型实战营——Python

选择debugger时选择python debuger。选择debug config时选择remote attach就行,随后会让我们选择debug server的地址,因为我们是在本地debug,所以全都保持默认直接回车就可以了,也就是我们的server地址为localhost:5678。很多时候我们要debug的不止是一个简单的python文件,而是很多参数,参数中不止会有简单的值还可能有错综复杂的文件关系,甚至debug一整个项目。这种情况下,直接使用命令行来发起debug会是一个更好的选择。

2024-07-19 11:11:41 238

原创 (第三期)书生大模型实战营——Linux+InternStudio

免费 A100 算力支持,由上海人工智能实验室主办的书生大模型实战营第 3 期来啦!全新的升级打怪闯关学习模式,让学习既富挑战性又充满乐趣。前沿优质的课程内容,涵盖了大模型的入门、基础和进阶知识,带你从入门到进阶,大模型时代不迷航!

2024-07-19 09:51:44 555

原创 chatglm2-6b-prompt尝试

【代码】chatglm2-6b-prompt尝试。

2024-07-18 21:39:44 466

原创 远程连接VScode到云服务器 ECS

再次远程连接,仍会出现无法连接的错误,这里发现本地的VScode的扩展项有问题,因此将本地VScode重新更新并重新安装扩展项。VScode已安装。

2024-07-17 12:22:21 425

原创 Faiss原理和使用

给定一组维度为ddd的向量x1xnx1​...xn​,Faiss会在RAM中构建一个数据结构。构建结构之后,当给定一个维度为ddd的新向量xxxiargmini∣∣x−xi∣∣iargmini​∣∣x−xi​∣∣其中,∣∣⋅∣∣||\cdot||∣∣⋅∣∣是欧几里得距离(L2)。在Faiss术语中,数据结构是一个索引,一个具有add方法以添加x_i向量的对象。注意,x_i的维度被假定为固定的。

2024-07-12 16:59:42 1384

原创 LangChain Cookbook Part 2

LangChain 和 LLM 最常见的用例之一是摘要。您可以总结任何一段文本,但用例范围从总结通话、文章、书籍、学术论文、法律文件、用户历史记录、表格或财务文件。拥有一个可以快速总结信息的工具非常有用。对于短文摘要,方法很简单,实际上,除了简单的提示和说明之外,你不需要做任何花哨的事情llm = ChatOpenAI(temperature = 0) # 创建模板 template = """%TEXT:{text}

2024-07-12 11:48:34 1040

原创 win10安装visual studio C++ build tools

在windows环境下,python有时需要调用Microsoft Visual C++ compiler编译器,尤其是在安装第三方包时候,会build项目,这时如果没有安装或者安装不协调的c++构建工具就会报错。经过了很多次尝试,使用VisualStudio Setup安装Visual Studio生成工具 2022暂时解决了问题(我还安装了Visual C++ 编译器,否则还是无法解决问题)。普适性的解决方案还需要探索。

2024-07-12 11:46:17 522

原创 LangChain Cookbook Part 1

LangChain是一个由语言模型驱动的应用程序框架。集成(Integration)-将外部数据(例如你的文件、其他应用程序和API数据)带到你的LLMs里代理(Agency)-允许你的LLMs通过决策与其环境进行交互。使用LLM来帮助决定下一步要采取什么行动。轻松浏览大量长文档并获得摘要。观看此视频了解除 map-reduce 之外的其他链类型[32;1m[1;[32;1m[1;[32;1m[1;

2024-07-12 10:06:25 1873

原创 L4 Persistence and Streaming

参考自https://www.deeplearning.ai/short-courses/ai-agents-in-langgraph,以下为代码的实现。

2024-07-10 14:55:40 411

原创 L2 LangGraph_Components

参考自,以下为代码的实现。

2024-07-10 14:41:57 637

原创 在Pycharm中把jupyter notebook转换成md格式

将其变成ipynb文件(需要下载Jupyter,nbconvert,pandoc),同理,也可以转换成markdown格式或其它。这里实际上是用的nvconvert。

2024-07-08 23:11:05 214

原创 L1 Simple_ReAct_Agent

参考自,以下为代码的实现。

2024-07-08 23:06:06 564

原创 Qwen1.5-1.8b部署

仿照ChatGLM3部署,参考了Qwen模型的文档,模型地址。

2024-07-05 15:56:59 585

原创 Locust的使用方法

参考自Locust是易于使用的分布式性能测试框架,使用协程的方式模拟用户请求,这与LoadRunner和Jmeter这类采用进程和线程的测试工具不一样,由于线程之间的切换是需要占用资源的,IO的阻塞和线程的sleep会不可避免地导致并发效率下降,所以这类测试工具很难在单机上模拟出较高的并发压力。协程是在用户态完成的,上下文切换的代价远比线程切换代价小得多,因此在单机上Locust能够达到更高数量级的并发。

2024-07-03 16:16:48 765

原创 Python异步IO之协程

参考自仓库协程(coroutine)在多任务协作中体现的效率又极为的突出。Python中执行多任务还可以通过多进程或一个进程中的多线程来执行,但两者之中均存在一些缺点,因此引出了协程。在计算机中CPU的运算速率要远远大于IO速率,而当CPU运算完毕后,如果再要闲置很长时间去等待IO任务完成才能进行下一个任务的计算,这样的任务执行效率很低。所以需要有一种异步的方式来处理类似任务。

2024-07-03 14:16:02 718

原创 ChatGLM3-6B部署

参考services: # 开始定义服务列表glm3_api: # 服务名称为 glm3_apiimage: python:3.10.13-slim # 使用的 Docker 镜像是 python 3.10.13-slim 版本restart: unless-stopped # 容器停止时除非明确停止,否则会尝试重启working_dir: /glm3 # 设置容器内的工作目录为 /glm3container_name: glm3_api # 给容器设置一个名称 glm3_api。

2024-07-02 20:49:17 1448

原创 Python——requests

参考自,本文用于学习记录。

2024-07-01 18:26:37 885

原创 FastAPI教程——部署

您编写的代码、Python文件。pythonpython.exe或uvicorn。在操作系统上运行、使用CPU并将内容存储在内存上的特定程序。这也被称为进程。在操作系统上运行的特定程序。这不是指文件,也不是指代码,它具体指的是操作系统正在执行和管理的东西。任何程序,任何代码,只有在执行时才能做事。因此,是当有进程正在运行时。该进程可以由您或操作系统终止(或“杀死”)。那时,它停止运行/被执行,并且它可以不再做事情。

2024-06-30 18:12:07 1120

原创 FastAPI教程——并发async/await

本文参考FastAPI教程。

2024-06-30 13:00:42 1308

原创 FastAPI教程III

本文参考FastAPI教程https://fastapi.tiangolo.com/zh/tutorial这部分暂无需求的没有记录,仅放置标题。

2024-06-30 12:23:48 1043

原创 FastAPI教程II

Pydantic的.dict()user_in是类UserIn的Pydantic模型。Pydantic模型支持.dict方法,能返回包含模型数据的字典。因此,如果使用如下方式创建Pydantic对象user_in现在,变量user_dict中的就是包含数据的字典(变量user_dict是字典,不是Pydantic模型对象)。解包dict把字典user_dict以形式传递给函数(或类),Python会执行解包操作。它会把user_dict的键和值作为关键字参数直接传递。因此,接着上面的。

2024-06-29 16:56:21 1373

原创 FastAPI教程I

你可以为查询参数声明额外的校验和元数据。aliastitledeprecatedmin_lengthmax_lengthregex你可以添加多个请求体参数到路径操作函数中,即使一个请求只能有一个请求体。但是 FastAPI 会处理它,在函数中为你提供正确的数据,并在路径操作中校验并记录正确的模式。你还可以声明将作为请求体的一部分所接收的单一值。你还可以指示 FastAPI 在仅声明了一个请求体参数的情况下,将原本的请求体嵌入到一个键中。

2024-06-28 21:19:51 1258

原创 大模型性能优化KV Cache

KV Cache只适用于Decoder架构,因为有Causal Mask的存在,如果是Encoder,处理的是输入序列,是一次性完成整个序列attention的计算,并不像Decoder一样有自左向右的重复性的计算,Encoder由于其一次性和并行性,用不上KV-Cache,而解码器由于其自回归性,KV Cache是很有用的。KV Cache的本质就是避免重复计算,把需要重复计算的结果进行缓存,生成式模型的新的token的产生需要用到之前的所有token的。,在计算注意力的时候是当前的。

2024-06-26 19:46:34 698

原创 Transformer实战——摘要生成

本文借助Huggingface Tranformer库完成一个摘要生成任务,参考自,在本文,将展示如何使用简单的加载数据集,同时针对相应的任务使用transformer中的Trainer接口对模型进行微调。这里解决的是摘要生成任务。本文的结构和Transformers官方文档一样,处理的文本也是英文文本,这里附上一个中文文本的很好的教程,github仓库为只要预训练的transformer模型包含seq2seq结构的head层,那么理论上可以使用各种各样的transformer模型,解决任何摘要生成任务。

2024-06-26 17:26:20 1259

原创 transformer模型的参数量和计算量

大规模语言模型(Large Language Model, LLM)的大体现在两个方面:模型参数规模大,训练数据规模大。以GPT3为例,参数量为1750亿,训练数据达到了570GB。进而,训练大语言模型面临两个主要挑战:显存效率和计算效率。现在业界的大语言模型都是基于transformer模型的,模型结构主要是encoder-decoder(代表模型是T5)和decoder-only(分为Causal LM——代表模型GPT,Prefix LM——代表模型GLM)。

2024-06-26 13:16:46 885

原创 Typora自动保存和找回未保存文件

在用typora做记录的时候没有手动保存,然后电脑崩了,还好有找回未保存文件功能,在这里存一下。找到未保存的文件版本后将其内容复制到新文件即可。

2024-06-25 19:01:20 210

原创 NVIDIA GPU参数

RTX 4090是NVIDIA的最新旗舰级游戏显卡,基于AD102架构,拥有高达76个SM单元和87个Tensor核心。A100是NVIDIA的下一代数据中心GPU,具有6912个CUDA核心和48个SM(Streaming Multiprocessor)单元,支持FP32、FP16和TF32等计算精度。它具有32GB内存,支持半精度(FP16)和单精度(FP32)计算,可提供高吞吐量和低延迟的计算性能。它拥有较少的CUDA核心数和较小的内存容量,但仍然能够提供较好的AI和HPC性能。

2024-06-23 18:16:36 730

原创 LLM主流架构和模型

本文参考自和Huggingface中的ModelCard(

2024-06-22 22:43:12 807

原创 Pytorch编写Transformer

本文参考自在学习了图解Transformer以后,需要用Pytorch编写Transformer,下面是写代码的过程中的总结,结构根据图解Transformer进行说明。

2024-06-19 21:28:21 1426

原创 图解Transformer学习笔记

教程是来自。

2024-06-15 10:07:11 1310

原创 图解Attention学习笔记

教程是来自。

2024-06-14 16:24:30 1004

原创 Training language models to follow instructions with human feedback 论文阅读

语言模型越大并不意味着它能更好的理解用户的意图,因此在这篇论文中,展示了根据人的反馈对模型进行微调,使得语言模型能够在各种人物上更好的理解用户的意图。在评估中,1.3B参数的InstructGPT模型的输出比175B GPT-3的输出更受欢迎,尽管参数少了100倍。此外,InstructGPT模型虽然在公共的数据上的效果有所降低,但是真实性和减少有害方面生成的能力提升。论文表明,尽管InstructGPT仍然会犯一些简单的错误,但根据人类反馈进行微调是能够理解人类意图的一个有效的方式和方向。

2024-06-14 08:36:54 887

原创 NLP实战入门——文本分类任务(TextRNN,TextCNN,TextRNN_Att,TextRCNN,FastText,DPCNN,BERT,ERNIE)

本文参考自,是为了进行NLP的一些典型模型的总结和尝试。

2024-06-09 23:18:45 2095

原创 NLP基础知识讲解比较清楚的文章

这里作为网址记录,用于自己学习。

2024-06-07 17:26:35 282

原创 人类语言处理nlp部分笔记——四、GPT3

GPT-3是一个language model,它的参数量相当巨大,是ELMO的2000倍。

2024-06-07 17:10:15 560

原创 人类语言处理nlp部分笔记——三、BERT和它的家族-ELMo,BERT,GPT,XLNet,MASS,BART,UniLM,ELECTRA等

参考自李宏毅课程-人类语言处理。

2024-06-07 16:51:17 1001

原创 人类语言处理nlp部分笔记——二、BERT和它的家族-介绍和微调

这里所说的pre-train model是输入一串tokens,能够输出一串vectors,且每个vector可以表示对应的语义的模型,这些vectors也被称作为embeddings。以前常用的模型有word2vec,Glove等,这里并没有详细介绍,之后需要单独去看,由于英文单词太多了,只要来一个新单词,整个embedding的模型就需要重新train,为了解决这个问题,有了fasttext。

2024-06-07 12:36:57 1114

原创 人类语言处理nlp部分笔记——一、NLP任务总览

参考自李宏毅课程-人类语言处理。

2024-06-07 10:50:12 1244

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除