卡卡大怪兽
码龄7年
求更新 关注
提问 私信
  • 博客:55,881
    55,881
    总访问量
  • 34
    原创
  • 101
    粉丝
  • 74
    关注
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:江苏省
加入CSDN时间: 2017-12-06
博客简介:

qq_41298763的博客

查看详细资料
个人成就
  • 获得249次点赞
  • 内容获得5次评论
  • 获得330次收藏
  • 代码片获得1,544次分享
  • 原力等级
    原力等级
    3
    原力分
    427
    本月获得
    16
创作历程
  • 17篇
    2024年
  • 17篇
    2023年
成就勋章

TA关注的专栏 1

TA关注的收藏夹 0

TA关注的社区 1

TA参与的活动 0

兴趣领域 设置
  • 硬件开发
    材料工程
创作活动更多

新星杯·14天创作挑战营·第9期

这是一个以写作博客为目的的创作活动,旨在鼓励大学生博主们挖掘自己的创作潜能,展现自己的写作才华。如果你是一位热爱写作的、想要展现自己创作才华的小伙伴,那么,快来参加吧!我们一起发掘写作的魅力,书写出属于我们的故事。我们诚挚邀请你们参加为期14天的创作挑战赛! 注: 1、参赛者可以进入活动群进行交流、分享创作心得,互相鼓励与支持(开卷),答疑及活动群请见 https://bbs.csdn.net/topics/619626357 2、文章质量分查询:https://www.csdn.net/qc

475人参与 去参加
  • 最近
  • 文章
  • 专栏
  • 代码仓
  • 资源
  • 收藏
  • 关注/订阅/互动
更多
  • 最近

  • 文章

  • 专栏

  • 代码仓

  • 资源

  • 收藏

  • 关注/订阅/互动

  • 社区

  • 帖子

  • 问答

  • 课程

  • 视频

搜索 取消

fastAPI接口(普通流式响应和大模型流式响应)

无论是流式还是非流式输出,vllm的LLM函数创建的模型对象通常以同步的方式工作,处理多并发情况时只能以队列形式一个个输出。对于流式输出,它也可以逐步返回数据给前端,但这是假流式,因为后端以及把所有的文本都输出了,然后我们又把文本一个个传给前端。:异步引擎同样可以支持流式和非流式输出,但它允许你以非阻塞的方式处理这些输出。大模型的流式输出(Streaming Output)和非流式输出(Non-streaming Output)是指在生成文本或其他输出时,如何将结果返回给用户或下游系统。
原创
发布博客 2024.12.18 ·
4037 阅读 ·
26 点赞 ·
0 评论 ·
27 收藏

fastAPI接口——设置API密钥令牌

uvicorn main:app --host 0.0.0.0 --port 8000 --reload启动后,执行以下代码即可看到效果,当密钥不同时返回:Failed to connect to 127.0.0.1 port 777 after 0 ms: 连接被拒绝。FastAPI 中设置 API 密钥令牌(API Key)是一种常见的安全措施,可以确保只有拥有有效密钥的客户端才能调用 API。
原创
发布博客 2024.12.18 ·
367 阅读 ·
2 点赞 ·
0 评论 ·
0 收藏

vllm加速(以Qwen2.5-7B-instruction为例)与流式响应

什么是vllm?vLLM 是一个高性能的大型语言模型推理引擎,采用创新的内存管理和执行架构,显著提升了大模型推理的速度和效率。它支持高度并发的请求处理,能够同时服务数千名用户,并且兼容多种深度学习框架,方便集成到现有的机器学习流程中。通过一个名为的新型注意力算法来解决传统LLM在生产环境中部署时所遇到的高内存消耗和计算成本的挑战。PagedAttention算法能有效管理注意力机制中的键和值,将它们分割成更小、更易于管理的块,从而减少了vLLM的内存占用,并使其吞吐量超过传统LLM服务方法。
原创
发布博客 2024.12.18 ·
2723 阅读 ·
33 点赞 ·
0 评论 ·
38 收藏

fastAPI接口的请求与响应——基础

Pydantic 模型提供了声明式的数据验证,这意味着你可以在模型类中定义属性及其类型,Pydantic 将自动执行验证。如果传入的数据不符合模型定义的规则,Pydantic 将抛出异常。3) 在这个例子中,Payload 类有两个属性:key1 和 key2,它们都被声明为字符串类型 (str)。当 FastAPI 接收到一个 HTTP 请求时,它会尝。
原创
发布博客 2024.12.18 ·
502 阅读 ·
8 点赞 ·
0 评论 ·
3 收藏

GPU显卡负载监测

上述代码用于自动检测gpu温度,显存占用等信息,并将结果保存到gpu_temperature_log.txt中。项目地址:https://github.com/wilicc/gpu-burn。gpu-burn是一个压力测试工具,用于测试GPU的性能问题。具体安装及用法见项目的README.md。
原创
发布博客 2024.12.18 ·
208 阅读 ·
3 点赞 ·
0 评论 ·
0 收藏

大模型的同步、异步及多并发测试

如果以异步方式与LLM进行交互时,可以发送多个请求而无需等待每个请求完成,这可以显著提高效率,尤其是在处理多个并发请求或长时间运行的任务时。虽然提供了更高的性能和灵活性,但编写和管理异步代码可能会增加开发的复杂性,需要开发者对异步编程有一定的了解。还可以通过输出底层大模型的的每一个字符,看看大模型对于多请求是否在同时推理(原大模型一次只能推理一个任务,必须要设置多并发才可以同时推理多个·任务)这就是LLM的同步,同步调用可能会导致资源利用率不高,因为每次调用都会占用线程直到操作完成,代码也易于理解编写,
原创
发布博客 2024.12.17 ·
1805 阅读 ·
5 点赞 ·
0 评论 ·
10 收藏

Linux开放端口问题(同一局域网)

跟以前版本有很大区别,CentOS7这个版本的防火墙默认使用的是firewall,与之前的版本使用iptables不一样,使用firewalld开启关闭防火墙与端口。
原创
发布博客 2024.10.28 ·
422 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

USB自动启动导致eth断开,ssh无法远程连接服务器

结果:发现原来是usb0网卡自动连接,导致eth断开,当usb网卡可以自动启动时,那么在lo下面会有一个usb0的显示(现在没有是因为我已经把它关闭了),执行ifconfig usb0 down可关闭指定的usb0网络设备。而我的问题就是usb以太网自动连接了,导致原本连接的eth1断开。执行ifconfig usb0 down后解决!在使用ssh连接服务器时,发现隔一会就连接不上了,其它都没有什么问题,当我执行ifconfig时,发现如下图所示,在lo的下面还会有一个usb0的网卡。
原创
发布博客 2024.10.23 ·
238 阅读 ·
2 点赞 ·
0 评论 ·
0 收藏

neo4j:ubuntu环境下的安装与使用

我下载的是neo4j-community-4.4.34-unix.tar.gz,所以使用:tar -axvf neo4j-community-4.4.34-unix.tar.gz 解压。MERGE (a)-[:FRIENDS{time: 2000}]->(b) 或者 CREATE (a)-[:FRIENDS]->(b)上述语法是为Person实体类型的张无忌实体和侠客实体类型的张无忌实体创建一个关系,这个关系还存在一个time属性。注意这里的箭头 -->是有方向的,表示是从a到b的关系。
原创
发布博客 2024.09.18 ·
1531 阅读 ·
13 点赞 ·
1 评论 ·
6 收藏

记录——深度学习、大模型常见问题

被计算和存储(大多数答模型都是transformer-decoder的结构,Transformer的计算复杂度和空间复杂度随输入长度N呈二次方增长,序列长度N -> 2N,所需的计算资源和内存就会变为4N,增长4倍;答:因为现代深度学习框架(PyTorch、Tensorflow)主要数据结构是张量(Tensor),它们的计算都是基于张量进行的,且张量支持自动求导,这对于训练神经网络至关重要。模型推理所占据的显存包括模型加载时的缓存,除此之外,还会受输入的大小和复杂性增加显存的使用,例如长输入会导致更多的。
原创
发布博客 2024.09.12 ·
325 阅读 ·
4 点赞 ·
0 评论 ·
7 收藏

深度学习:数据集处理简单记录

上述是生成一个简单数据集代码,最后的features的shape为torch.Size([1000, 2]),labels的shape为torch.Size([1000, 1])。注意数据集的所有数据都是tensor张量,用于在gpu上计算.上述为调用torch.utils.data中的Dataset和DataLoader类应用于自己的数据集,来训练模型。上述为训练模型时的数据增强代码(主要是裁剪+翻转),用于提高模型的鲁棒性。需要注意训练模型时候的模型输入的图片需要尺寸统一且为tensor格式。
原创
发布博客 2024.09.12 ·
366 阅读 ·
7 点赞 ·
0 评论 ·
3 收藏

FlashAttention介绍(1.0版本)

FlashAttention:IO感知的精确注意力。通过GPU硬件的特殊设计,尽可能的避免在HBM中读取或者写入注意力矩阵。以自注意力的计算为例,其计算流程为:1)首先从全局内存(HBM)中读取矩阵Q和K,并将计算好的矩阵S再写入全局内存。2)之后再从全局内存中获取矩阵S,计算Softmax得到矩阵P再写入全局内存。3)之后读取矩阵P和矩阵V ,计算得到矩阵O,写入HBM。我们可以发现在自注意力分数的计算过程中,不但产生了中间注意力矩阵S、P,并且还对HBM频繁的写入S和P。
原创
发布博客 2024.06.05 ·
1048 阅读 ·
16 点赞 ·
0 评论 ·
8 收藏

什么是预训练?

预训练
原创
发布博客 2024.05.20 ·
1118 阅读 ·
19 点赞 ·
0 评论 ·
10 收藏

FP32,TF32,FP16,BF16介绍

浮点数是一种数据类型,指有小数点的实数。以二进制存储在计算机中时,包括符号位,指数位和小数位(尾数位)。浮点型数据分为:单精度(float,4字节,32比特)与双精度(double,8字节,64位比特)不同于定点数,浮点型数据以二进制存储在计算机中,因此计算时一般都是有误差,都是近似。(一般期望两个浮点型的误差相互抵消,所以一般使用同类型的浮点数进行相互计算例:0.1用二进制表示,将是一个无限循环小数,因此会出现舍入误差,造成精度损失。进制相互转换:1)整数十进制转化为二进制:除2取余数。
原创
发布博客 2024.01.19 ·
8766 阅读 ·
30 点赞 ·
0 评论 ·
45 收藏

VS Code连接服务器,Ctrl + 点击 无法跳转至函数底层(python)

在使用vs code连接远程服务器,打开python项目时,发现如下图所示,试了试ctrl + 鼠标左键无法链接跳转至函数内部,对代码开发造成极大影响。随后发现没有选择环境python interpreter,可无论是设置还是vscode右下角都找不到select interpreter。后来发现vs code初次远程连接服务器时,需要在服务器上启用一个拓展,其实就在上图处重新install一下即可。
原创
发布博客 2024.01.16 ·
3773 阅读 ·
21 点赞 ·
3 评论 ·
13 收藏

Linux:创建用户(未完待续)

需要在/etc/passwd文件中,找到如下图所示的命令,将sh 改为 bash,最后再关闭命令窗口,重载一下即可。bash内置了跟踪和记录用户输入命令的功能,这些命令历史记录被存储在当前用户的~/.bashhistory文件中。(这是因为/etc/sudoers文件默认是只读的,对于root也是,因此需要对sudoers文件添加写权限)刚刚成功创建的用户没有sudo权限,需要现在/etc/sudoers文件中给予权限,才能使用sudo命令。3)编辑sudoers文件,用新建用户名添加一行命令即可。
原创
发布博客 2024.01.03 ·
437 阅读 ·
9 点赞 ·
0 评论 ·
8 收藏

Linux:Ubuntu下miniconda的下载安装

注:上述1-5,执行若报权限不足:Permission denied时,需要在命令前加上sudo。进入下载目录后,运行上述命令,安装过程中遇见的选择全部输入yes。3. 配置环境变量(使得conda在任意位置都可以直接使用)5. 输入conda,出现conda的信息则安装成功。或者,关闭窗口再重新打开。下载的具体目录自己设置。
原创
发布博客 2024.01.03 ·
2014 阅读 ·
11 点赞 ·
0 评论 ·
17 收藏

关于selenium库浏览器webdriver不能被找到的问题(firefox)——NoSuchDriverException

谷歌驱动的各历史版本:https://registry.npmmirror.com/binary.html?火狐的各历史版本:https://ftp.mozilla.org/pub/mozilla.org//firefox/releases/谷歌浏览器的历史版本:https://downzen.com/en/windows/google-chrome/versions/火狐各驱动历史版本:https://github.com/mozilla/geckodriver/releases/
原创
发布博客 2023.11.23 ·
1690 阅读 ·
9 点赞 ·
0 评论 ·
7 收藏

深度学习:lora微调

正常神经网络:输入x -> 全连接层(w) -> 输出y,训练时输入x,y数据来更新参数w,使得loss最小,w达到最优。但在大模型中,参数量都是几十几百亿的没计算量极大,在进行梯度计算时,内存硬件都无法支持。LoRA 的基本原理是冻结预训练好的模型权重参数,在冻结原模型参数的情况下,通过往模型中加入额外的网络层,并只训练这些新增的网络层参数。r + d*r,并且r
原创
发布博客 2023.10.27 ·
2636 阅读 ·
6 点赞 ·
0 评论 ·
5 收藏

深度学习:详解梯度下降、随机梯度下降、小批量随机梯度下降

但每次迭代中只使用一个样本计算梯度,因此每次迭代的梯度都是有噪声的,毕竟不是所有样本的均值,所以下降(下山)会走一点弯路,但总体因为总的迭代次数很多,所以随机梯度下降法最终会收敛到最优解 ,还是划得来的。我们可以其看作一个下山的过程:对于梯度下降而已,是找到了最优的下山路径,所有它的曲线比较直,而对于随机梯度下降,它因为随机选一个样本ti来近似f(x)——所有样本的损失平均,所以找的并不是最优的下山路径,但方向是对的,只是要走弯路,因此它下山的曲线比较曲折。随机梯度下降,是指在时间t,
原创
发布博客 2023.10.27 ·
4216 阅读 ·
8 点赞 ·
2 评论 ·
34 收藏
加载更多