- 博客(25)
- 问答 (3)
- 收藏
- 关注
原创 大模型推理 高并发测试需要协程
对于高并发的 API 测试,协程通常是更优的选择,因为它们在处理大量 I/O 操作时更加高效,资源消耗更低。如果你的测试场景主要是 I/O 密集型(例如大量的网络请求),使用协程(如asyncio和aiohttp)能够更有效地模拟高并发场景。通过理解并行和并发的区别,以及协程在高并发测试中的优势,开发者可以更好地选择合适的编程模型和技术来优化系统性能,确保在高负载下依然能够稳定运行。
2024-08-24 18:10:32 978
原创 RMSNorm 和 LayerNorm 笔记
LayerNorm通过计算均值和标准差对输入进行归一化,适用于各种深度学习模型,特别是在处理不同长度的输入序列时表现良好。RMSNorm通过计算均方根进行归一化,避免了均值和标准差的计算,具有计算简单、数值稳定性高等优点,在某些任务中表现更好。选择使用哪种归一化方法应根据具体的任务需求和实验结果来决定。
2024-08-20 18:00:52 651
原创 探索 PDF 转 Markdown 的项目:MinerU 和 pdfParser
是一款一站式、开源、高质量的数据提取工具,支持 PDF、网页和电子书的提取。其 Magic-PDF 模块可以将 PDF 转换为 Markdown 格式,保留文档结构和格式,并支持图像和表格提取。通过利用这些工具,用户可以简化数据提取过程,实现 PDF 内容到 Markdown 格式的无缝转换。增强了表格识别功能,能将 PDF 中的表格转换为 Markdown 文本。开源的项目,该实验室是为为国产大模型提供高质量的开放数据集。
2024-07-19 18:18:14 1218
原创 11111
主要测试A800显卡在以下场景下的生成token能力:单张卡启动多个服务的影响:不同卡之间的服务启动数量影响:单卡多服务:多卡多服务:
2024-07-19 15:20:42 340
原创 使用LlamaFactory进行模型微调:参数详解
在使用LlamaFactory进行模型微调时,理解和合理设置各个参数至关重要。确保了输入序列的合理长度,优化了注意力机制的实现,和则通过低秩矩阵和权重更新比例来提高微调效率和效果,而和则进一步细化了模型的训练策略。通过这些参数设置,您可以在计算资源有限的情况下,充分发挥预训练模型的性能,实现高效的模型微调。如果您对这些技术感兴趣,可以尝试在自己的项目中应用,并根据实际情况进行调整和优化。
2024-06-19 10:18:01 6024 6
原创 从程序员到软件工程师:AI辅助编程的新时代
随着人工智能技术的飞速发展,传统的编码方式正在经历一场革命。特别是像OpenAI这样的先进语言模型,已经能够在很多编程任务中提供显著的帮助。这不仅改变了程序员的日常工作方式,也推动着他们向更高层次的软件工程师角色转型。
2024-06-13 14:47:46 393
原创 Plugins和function-call 使用自然语言连接一切
OpenAI 的 Plugins 和 Function Calling 两种方式均旨在扩展和增强模型的能力。Plugins 允许模型与外部服务和数据库进行互动,从而提供更丰富和实时的数据访问能力。而 Function Calling 则是在对话过程中,模型能够识别特定的用户需求并调用预定义的函数,以提供更准确和定制化的回答。Function Calling 更注重在对话中直接调用代码逻辑处理特定任务,而 Plugins 更侧重于通过外部集成来扩展模型的功能范围。
2024-06-13 14:31:22 936
原创 使用Nginx配置反向代理以转发请求
在某些情况下,您可能需要将请求从常用端口(如80或443)转发到容器的非标准端口(如6666)。使用Nginx作为反向代理是一种常见且有效的解决方案。本文将介绍如何安装和配置Nginx,将请求从80端口转发到6666端口。
2024-06-11 10:16:51 423
原创 RAG-Flow部署本地微调过的模型使用
在这篇博客中,我们将介绍如何在Ubuntu服务器上启动RAGFlow服务器。我们将确保系统配置满足RAGFlow的要求,然后通过Docker Compose来启动服务器。
2024-06-05 18:38:10 5041 4
原创 lora微调实战技巧
首先,运行检查数据长度的脚本以确保没有数据长度超过1024。如果有,需要增加cutoff len参数。如果所有数据长度均小于1024,可以继续复制计算学习率的脚本。运行计算学习率的脚本,确保参数根据你的实际情况进行调整。请注意,将相应的路径和选项替换为你的实际值。
2024-05-30 17:11:53 337
原创 FlashAttention: 加速注意力计算的新算法
FlashAttention 是深度学习领域的一个重要进展,它为加速注意力计算和减少内存占用提供了全新的思路和方法。我们期待看到 FlashAttention 在未来的深度学习项目中发挥更大的作用。
2024-05-24 18:41:04 497
原创 理解AI对话系统中的术语
本文介绍了在使用AI对话系统时常见的术语,包括System Prompt、Prompt、Query、Response和Instruction。我们详细解释了每个术语的定义、用途以及在对话系统中的应用。System Prompt是对AI模型行为和风格的初始设定,而Prompt是用户向AI提出问题或请求的方式。Query是用户的具体问题或请求,而Response是AI根据Query或Prompt生成的回答。最后,Instruction是用户在对话过程中给AI的具体任务指令。通过理解这些术语,我们可以更好地设计和
2024-05-20 11:26:23 900
原创 OpenAI system,user,assistant 角色详解
系统角色用于为聊天助手分配特定的行为或上下文,以影响对话的模型行为。例如,您可以将系统角色分配给聊天助手,并设置内容为特定主题或行为,以便ChatGPT在对话中表现特定的个性或专业知识。在使用OpenAI ChatGPT API时,消息对象中的角色(role)用于指示消息的作者身份和对话的上下文。在这个快速教程中,我们了解了ChatGPT API消息中“system”、“user”和“assistant”角色的含义,以及如何在API中使用它们。助手角色表示对最终用户提示的响应实体,用于保持对话的连贯性。
2024-05-13 11:48:50 2247
原创 LLaMA-Factory微调LLama2
关于如何使用LLaMA-Factory(版本0.6.2)对LLama2模型进行微调的指南。文档内容主要分为以下几个部分:下载安装:提供了通过git克隆仓库和使用pip安装LLaMA-Factory的指令,以及使用Docker安装环境的方法。准备数据集:包括将Excel表格数据转换成JSON格式的步骤,以及如何计算生成的JSON数据的sha1值。单卡训练微调:介绍了如何启动web版本的训练,调整配置,以及如何开始微调过程。还包括了训练结束后微调模型的导出和使用。多卡训练微调:介绍了使用deep
2024-04-24 15:03:41 2367 1
原创 本地部署基于LLama3知识库问答 (OLLama+Oneapi+Fastgpt)
关于如何本地部署基于LLama3知识库问答系统的指南,涉及OLLama、OneAPI和FastGPT三个组件。文档内容主要分为以下几个步骤:使用docker搭建ollama容器:安装NVIDIA Container Toolkit,包括配置仓库和安装相关包。启动ollama容器,映射端口并设置卷。使用ChatOllama下载模型以及体验模型:通过docker-compose.yml文件运行容器,并配置ollama地址。访问127.0.0.1:3000来使用ChatOllama,设置相关的配
2024-04-24 13:09:21 6931 3
原创 VISTION Transformer
对vit代码的理解和学习提示:这里对文章进行总结:例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。
2023-04-21 16:21:09 182
原创 jupyter作用域问题
定义一个全局变量,在定义函数形参时,不要与全局变量同名,否则会导致jupyter分不清形参和全局变量,导致修改了全局变量。
2023-03-21 16:39:03 183
空空如也
win11 wsl2 docker
2023-04-18
paddle安装失败gpu cuda10.2
2022-09-30
github上的vue+python项目 npm intall出错,如何解决?
2022-06-05
如何恢复mysql数据库 的数据库 我关机没关springboot服务 导致把数据库删了
2022-05-19
vue3 百度地图notdefined Bmap
2022-05-02
TA创建的收藏夹 TA关注的收藏夹
TA关注的人