kjzd123-CSDN博客

原创大模型推理高并发测试需要协程

对于高并发的 API 测试，协程通常是更优的选择，因为它们在处理大量 I/O 操作时更加高效，资源消耗更低。如果你的测试场景主要是 I/O 密集型（例如大量的网络请求），使用协程（如asyncio和aiohttp）能够更有效地模拟高并发场景。通过理解并行和并发的区别，以及协程在高并发测试中的优势，开发者可以更好地选择合适的编程模型和技术来优化系统性能，确保在高负载下依然能够稳定运行。

2024-08-24 18:10:32 978

原创 RMSNorm 和 LayerNorm 笔记

LayerNorm通过计算均值和标准差对输入进行归一化，适用于各种深度学习模型，特别是在处理不同长度的输入序列时表现良好。RMSNorm通过计算均方根进行归一化，避免了均值和标准差的计算，具有计算简单、数值稳定性高等优点，在某些任务中表现更好。选择使用哪种归一化方法应根据具体的任务需求和实验结果来决定。

2024-08-20 18:00:52 651

原创探索 PDF 转 Markdown 的项目：MinerU 和 pdfParser

是一款一站式、开源、高质量的数据提取工具，支持 PDF、网页和电子书的提取。其 Magic-PDF 模块可以将 PDF 转换为 Markdown 格式，保留文档结构和格式，并支持图像和表格提取。通过利用这些工具，用户可以简化数据提取过程，实现 PDF 内容到 Markdown 格式的无缝转换。增强了表格识别功能，能将 PDF 中的表格转换为 Markdown 文本。开源的项目，该实验室是为为国产大模型提供高质量的开放数据集。

2024-07-19 18:18:14 1218

原创 11111

主要测试A800显卡在以下场景下的生成token能力：单张卡启动多个服务的影响：不同卡之间的服务启动数量影响：单卡多服务：多卡多服务：

2024-07-19 15:20:42 340

原创 A800并发测试

【代码】A800并发测试。

2024-06-19 11:26:34 457

原创使用LlamaFactory进行模型微调：参数详解

在使用LlamaFactory进行模型微调时，理解和合理设置各个参数至关重要。确保了输入序列的合理长度，优化了注意力机制的实现，和则通过低秩矩阵和权重更新比例来提高微调效率和效果，而和则进一步细化了模型的训练策略。通过这些参数设置，您可以在计算资源有限的情况下，充分发挥预训练模型的性能，实现高效的模型微调。如果您对这些技术感兴趣，可以尝试在自己的项目中应用，并根据实际情况进行调整和优化。

2024-06-19 10:18:01 6024 6

原创从程序员到软件工程师：AI辅助编程的新时代

随着人工智能技术的飞速发展，传统的编码方式正在经历一场革命。特别是像OpenAI这样的先进语言模型，已经能够在很多编程任务中提供显著的帮助。这不仅改变了程序员的日常工作方式，也推动着他们向更高层次的软件工程师角色转型。

2024-06-13 14:47:46 393

原创 Plugins和function-call 使用自然语言连接一切

OpenAI 的 Plugins 和 Function Calling 两种方式均旨在扩展和增强模型的能力。Plugins 允许模型与外部服务和数据库进行互动，从而提供更丰富和实时的数据访问能力。而 Function Calling 则是在对话过程中，模型能够识别特定的用户需求并调用预定义的函数，以提供更准确和定制化的回答。Function Calling 更注重在对话中直接调用代码逻辑处理特定任务，而 Plugins 更侧重于通过外部集成来扩展模型的功能范围。

2024-06-13 14:31:22 936

原创使用Nginx配置反向代理以转发请求

在某些情况下，您可能需要将请求从常用端口（如80或443）转发到容器的非标准端口（如6666）。使用Nginx作为反向代理是一种常见且有效的解决方案。本文将介绍如何安装和配置Nginx，将请求从80端口转发到6666端口。

2024-06-11 10:16:51 423

原创 ollama 部署自己微调过的模型

本指南将介绍如何在 Ollama 中导入 GGUF、PyTorch 或 Safetensors 模型。

2024-06-06 18:48:34 3229 1

原创 RAG-Flow部署本地微调过的模型使用

在这篇博客中，我们将介绍如何在Ubuntu服务器上启动RAGFlow服务器。我们将确保系统配置满足RAGFlow的要求，然后通过Docker Compose来启动服务器。

2024-06-05 18:38:10 5041 4

原创 lora微调实战技巧

首先，运行检查数据长度的脚本以确保没有数据长度超过1024。如果有，需要增加cutoff len参数。如果所有数据长度均小于1024，可以继续复制计算学习率的脚本。运行计算学习率的脚本，确保参数根据你的实际情况进行调整。请注意，将相应的路径和选项替换为你的实际值。

2024-05-30 17:11:53 337

原创 FlashAttention: 加速注意力计算的新算法

FlashAttention 是深度学习领域的一个重要进展，它为加速注意力计算和减少内存占用提供了全新的思路和方法。我们期待看到 FlashAttention 在未来的深度学习项目中发挥更大的作用。

2024-05-24 18:41:04 497

原创理解AI对话系统中的术语

本文介绍了在使用AI对话系统时常见的术语，包括System Prompt、Prompt、Query、Response和Instruction。我们详细解释了每个术语的定义、用途以及在对话系统中的应用。System Prompt是对AI模型行为和风格的初始设定，而Prompt是用户向AI提出问题或请求的方式。Query是用户的具体问题或请求，而Response是AI根据Query或Prompt生成的回答。最后，Instruction是用户在对话过程中给AI的具体任务指令。通过理解这些术语，我们可以更好地设计和

2024-05-20 11:26:23 900

原创 OpenAI system,user,assistant 角色详解

系统角色用于为聊天助手分配特定的行为或上下文，以影响对话的模型行为。例如，您可以将系统角色分配给聊天助手，并设置内容为特定主题或行为，以便ChatGPT在对话中表现特定的个性或专业知识。在使用OpenAI ChatGPT API时，消息对象中的角色（role）用于指示消息的作者身份和对话的上下文。在这个快速教程中，我们了解了ChatGPT API消息中“system”、“user”和“assistant”角色的含义，以及如何在API中使用它们。助手角色表示对最终用户提示的响应实体，用于保持对话的连贯性。

2024-05-13 11:48:50 2247

kjzd123的博客

原创【无标题】

原创大模型推理高并发测试需要协程

原创 RMSNorm 和 LayerNorm 笔记

原创探索 PDF 转 Markdown 的项目：MinerU 和 pdfParser

原创 11111

原创 A800并发测试

原创使用LlamaFactory进行模型微调：参数详解

原创从程序员到软件工程师：AI辅助编程的新时代

原创 Plugins和function-call 使用自然语言连接一切

原创使用Nginx配置反向代理以转发请求

原创 ollama 部署自己微调过的模型

原创 RAG-Flow部署本地微调过的模型使用

原创 lora微调实战技巧

原创 FlashAttention: 加速注意力计算的新算法

原创理解AI对话系统中的术语

原创 OpenAI system,user,assistant 角色详解

原创读光-表格结构识别-有线表格使用指南

原创 Paddle-ocr pdf-to-word操作指南

原创 LLaMA-Factory微调LLama2

原创本地部署基于LLama3知识库问答（OLLama+Oneapi+Fastgpt）

原创 VISTION Transformer

原创 jupyter作用域问题

原创自然语言处理模型（transformer）

原创 UCMT论文学习

原创单台虚拟机搭建kafka集群（使用docker）

空空如也

win11 wsl2 docker

paddle安装失败gpu cuda10.2

github上的vue+python项目 npm intall出错，如何解决？

如何恢复mysql数据库的数据库我关机没关springboot服务导致把数据库删了

vue3 百度地图notdefined Bmap