- 博客(1128)
- 资源 (52)
- 问答 (1)
- 收藏
- 关注
原创 AI高考志愿助手应用架构设计并上线实施运行
用户前端输入 --> 后端Java服务 --> MySQL数据库查询匹配分数和专业 --> 结果发送至大模型 --> LLM总结生成推荐志愿表 --> 前端展示用户前端输入 --> 大模型(含MCP接口调用能力)--> 通过MCP调用MySQL查询接口获取分数匹配结果 --> LLM总结生成推荐志愿表 --> 前端展示。
2025-06-09 15:40:34
243
原创 Qwen3开启了调用工具功能,为什么还要写一下Function call逻辑才能使用mcp服务?
摘要:Qwen3开启MCP工具调用功能后仍需编写Function Call逻辑的原因在于:1)MCP功能开启仅提供权限基础,业务调用需Function Call定义具体接口和参数;2)Function Call作为模型与外部服务的桥梁,规范调用时机和参数格式;3)MCP业务涉及复杂参数,需结构化处理。对于是否让模型自主判断参数,直接生成存在准确性风险,建议采用Function Call机制或结合模型生成与后端校验,微调专属模型虽能提升能力但成本较高。最优方案需根据业务复杂度选择Function Call或混
2025-06-09 00:30:00
775
原创 什么是(增量)预训练、(多模态)指令监督微调、奖励模型训练、PPO 训练、DPO 训练、KTO 训练、ORPO 训练?
设计合理的奖励函数R,明确哪些行为是期望强化的,哪些是要惩罚的。奖励信号对训练收敛至关重要。训练阶段目的/功能增量关系预训练学习语言基础和广泛知识模型能力根基指令监督微调(SFT)学习执行具体指令和任务让模型更实用,更懂指令奖励模型训练学习评价文本质量,提供奖励信号连接微调和强化学习,给出训练反馈PPO训练用奖励信号强化模型输出通过策略优化提升人类偏好一致性DPO训练直接用偏好数据优化模型简化训练,不依赖奖励模型KTO训练注入外部知识提升准确性。
2025-06-08 00:45:00
837
原创 什么是大模型算法?自己设计实现大模型程序代码算的上是算法吗?
大模型算法是指用于构建和训练大规模深度学习模型的核心理论与方法,包括模型架构设计、训练优化、微调技术等核心环节。算法与代码的区别在于:算法是解决问题的抽象方法与逻辑设计,而代码是算法的具体实现。自己编写大模型代码是否算算法开发取决于创新性:若提出新架构或训练方法是算法创新;若仅调用现有模型或优化工程实现则不算。关键区分在于是否包含新的理论方法设计。
2025-06-08 00:30:00
507
原创 AI-Sphere-Butler之如何启动AI全能管家教程(WSL测试环境下适用)
本文介绍了在WSL2环境下启动AI全能管家的详细步骤。首先需运行ollama启动大模型,然后通过wsl.bat脚本激活环境。接着需要依次运行四个Python程序:finalsay2.py、readquestion.py、hs.py和app.py(可选本地TTS服务)。最后通过浏览器访问指定网址启动数字人形象,点击麦克风即可开始对话。该方案为测试环境配置方法,正式环境可封装为服务运行。整个流程涉及大模型运行、语音合成、数字人交互等多个AI模块的协同工作。
2025-06-07 19:24:18
310
原创 LLaMA-Factory微调Qwen3模型完了,怎么直接用vllm推理模型?
如何在vLLM中部署微调后的Qwen3模型 步骤概要: 合并LoRA权重:使用LLaMA-Factory的export命令将LoRA适配器与基础模型合并,生成完整模型文件 启动vLLM服务:通过vLLM加载合并后的模型,配置多卡并行、内存优化等参数 API测试:使用OpenAI兼容的API接口验证服务可用性 关键点: vLLM需要完整模型权重文件 多卡部署需匹配tensor-parallel-size参数 可通过调整max-model-len等参数优化显存使用 常见问题解决方法包括调整并行度、启用量化或降低
2025-06-07 01:00:00
725
原创 怎么把一个有2万条的excel数据导入到mysql数据库?
2.需要把 zj.csv 文件放到这个目录下,才能通过 LOAD DATA INFILE 成功导入。在 MySQL 里,新建数据库非常简单。怎么把一个有2万条的excel数据导入到mysql数据库?这个路径就是 MySQL 允许读取文件的目录。,支持中文和更多字符,且排序规则为通用的。提前检查表格里面的空单元格改成-这条语句指定了字符集为。
2025-06-06 03:30:00
526
原创 ChatBI应用之本地Qwen3大模型如何使用mysql-mcp-server-sse调用mysql数据库生成高考志愿推荐表
本文介绍了如何使用本地部署的Qwen3大模型通过mysql-mcp-server-sse工具连接MySQL数据库生成高考志愿推荐表。方案包括:1) 安装mysql-mcp-server-sse工具并配置环境变量;2) 优化server.py代码以支持工具自动注册和资源管理;3) 初始化数据库连接池。关键技术点涉及自动注册MySQL工具函数、连接池定时回收机制和系统信号处理。该方法实现了大模型与数据库的安全交互,为高考志愿推荐系统的开发提供了可行方案。
2025-06-06 03:00:00
482
原创 在k8s中containerd 或者 docker 功能是相同的吗,比如docker中运行ollama在containerd 也可以运行吗?
K8s中containerd和Docker作为容器运行时的区别:Docker提供完整容器管理功能但资源消耗大,containerd更轻量专注运行时且是K8s官方推荐。两者均可运行Ollama等OCI标准镜像,但Docker CLI更友好适合开发,containerd需使用ctr/nerdctl工具。建议K8s生产环境使用containerd,开发测试可用Docker。Ollama部署时需注意两者在GPU支持和网络配置上的差异。
2025-06-03 00:45:00
917
1
原创 怎么卸载所master节点上的 Kubernetes 组件,重新部署。
摘要: 要卸载并重新部署Kubernetes Master节点组件,需按步骤操作:1)停止所有Kubernetes和容器运行时服务;2)使用apt/yum卸载kubelet等核心组件;3)删除/etc/kubernetes等数据目录;4)清理CNI网络配置;5)卸载容器运行时;6)可选清理遗留网络接口。重新部署时需依次安装容器运行时、kubeadm组件、初始化集群并配置网络插件。操作前务必备份数据,具体步骤需参考官方文档,生产环境建议先在测试环境验证。(150字)
2025-06-03 00:15:00
543
原创 vllm并发怎么处理,1秒发送6个请求,服务端是同时回复请求还是列队处理?
vLLM并发请求处理机制解析(150字摘要): vLLM采用动态批处理策略处理并发请求,会将多个请求合并为批次在GPU上并行执行。日志数据显示"Running: 4-5 reqs"表明系统能同时处理多个请求,"Waiting: 0"说明无排队等待情况。通过KV Cache(使用率0.5%)和Prefix Cache(命中率65.5%)优化推理效率,前者缓存中间计算结果,后者复用相似前缀的激活状态。当并发请求超过硬件负载时才会出现排队(Waiting>0),正常情
2025-06-02 00:30:00
1667
原创 Qwen3模型思考出现不停重复循环?
模型在生成内容时陷入重复循环思考,原因是提示词中存在"必须完整结构"与"无法提供内容"的矛盾指令。解决方案包括:1)允许保留结构但注明"数据不足",明确禁止重复解释;2)在系统指令中限制递归推理深度。修改后的提示词应包含"若字段无数据,保留结构并单次说明原因"的指令,避免模型陷入逻辑死循环,确保输出合规且简洁的JSON格式。关键是通过解除指令冲突,引导模型在结构完整性和内容缺失之间找到平衡点。
2025-06-02 00:15:00
445
原创 如何使用 Docker 部署grafana和loki收集vllm日志?
Ubuntu20.04grafanaloki 3.4.1如何使用 Docker 部署grafana和loki收集vllm日志?1.创建一个名为 loki 的目录。将 loki 设为当前工作目录:2.将以下命令复制并粘贴到您的命令行中,以将 loki-local-config.yaml 和 promtail-docker-config.yaml 下载到 loki 目录中。3.将以下命令复制并粘贴到命令行中,在上一步中下载的配置文件启动 Docker 容器。默认情况下,该映像配置为以 UID 为 100
2025-06-01 10:25:36
335
原创 如何用docker部署ELK?
Docker部署ELK(8.8.0)简明指南 环境准备: Ubuntu 20.04系统 安装Docker Engine (≥18.06)和Docker Compose (≥2.0.0) 部署步骤: 克隆docker-elk仓库并进入项目目录 创建.env文件设置组件密码 修改配置文件(如kibana.yml新增安全设置) 编写docker-compose.yml定义服务(包含elasticsearch、logstash、kibana) 关键配置: Elasticsearch使用单节点模式,端口映射9210/
2025-06-01 10:19:08
997
1
原创 vllm推理Qwen3模型,问答几句,又正常,然后问几次又出错The model `Qwen3-32B-FP8` does not exist,错误404.“如何修复?
问题摘要: 在Ubuntu 20.04使用vLLM 0.8.5推理Qwen3模型时,间歇性出现404错误("The model Qwen3-32B-FP8 does not exist"),显存充足且无并发压力。日志显示服务正常但请求偶发失败,可能因模型名称不一致、路径问题或vLLM的lazy加载机制导致。 解决方案: 强制预加载模型:启动时添加--preload-model参数; 统一模型名称:确保API请求与加载的模型名严格一致; 源码修改:增加重试逻辑或调试日志;
2025-05-28 23:35:29
163
原创 Ubuntu系统rsyslog日志突然占用磁盘空间超大怎么办?
方案编号方案名称适用场景是否严格控制总大小配置复杂度1传统日志文件管理间接控制简单2传统日志文件管理间接控制简单3systemd-journald 配置systemd 系统日志管理严格控制简单4Docker 容器日志限制Docker 容器日志管理严格控制简单。
2025-05-28 23:09:45
704
原创 VLLM推理可以分配不同显存限制给两张卡吗?
VLLM 0.8.5H20 96GVLLM推理可以分配不同显存限制给两张卡吗?一张卡90G显存,一张卡还有50多空余显存。vLLM的gpu-memory-utilization参数是全局设置,不能为每张GPU单独分配不同的显存利用率。你只能设置一个统一的值,例如0.9,vLLM会在每张卡上按剩余可用显存的90%分配。如何手动调整每张卡的可用显存或运行多个实例?vLLM不支持为每张GPU单独设置显存利用率。若需手动调整每张卡的可用显存,可通过分别设置CUDA_VISIBLE_DEVICES环境变量,启动多个v
2025-05-24 11:28:50
467
原创 如何制作可以本地联网搜索的MCP,并让本地Qwen3大模型调用搜索回答用户问题?
本地联网搜索MCP解决方案 要搭建本地联网搜索MCP系统并让Qwen3大模型调用,主要步骤如下: 安装SearXNG: 创建虚拟环境并安装依赖 修改配置文件启用JSON API支持 启动SearXNG服务进行测试 构建MCP服务。
2025-05-24 11:18:23
92
原创 有两个Python脚本都在虚拟环境下运行,怎么打包成一个系统服务,按照顺序启动?
SEMCPsearx.webapppython有两个python脚本都在虚拟环境下运行,怎么打包成一个系统服务,按照顺序启动?将这两个 Python 脚本打包成有启动顺序的系统服务,最常用的方法是在 Linux 系统上使用 来管理它们。将创建两个 服务单元文件,一个用于 ,一个用于 ,并通过配置依赖关系确保 先启动并运行稳定后,自动再启动 。希望使用 用户运行(注意:在生产环境中通常不建议使用 root 用户运行服务,应创建专用用户以提高安全性)。步骤 1: 创建 SearXNG Webapp 的
2025-05-23 19:45:00
1209
原创 SGLang和vllm比有什么优势?
稀疏激活技术:通过只激活部分模型参数,显著减少计算量和显存使用。适合超大模型:稀疏模型和分布式推理能够支持更大规模模型推理,特别是超大LLM。跨设备扩展能力强:支持多机多卡复杂调度,适合企业级大规模部署。资源利用率高:稀疏计算和混合精度技术可以节省硬件资源,降低成本。如果你需要极致的资源节省,运行超大稀疏激活模型,并且有能力做多机多卡复杂部署,SGLang可能更合适。如果你关注交互式体验,需求低延迟高并发推理,且想快速用现成模型跑起来,vLLM会是更方便且高效的选择。
2025-05-19 20:30:10
1170
原创 JAVA请求vllm的api服务报错Unsupported upgrade request、 Invalid HTTP request received.
vllm 0.8.5java 17Qwen3-32B-FP8JAVA请求vllm的api服务报错Unsupported upgrade request、 Invalid HTTP request received.服务端:1.原来请求脚本错误日志分析:服务端提示请求格式有误,导致 400 错误。 Java 代码,有几处明显的语法和格式问题,可能导致请求体JSON格式不正确,服务端无法解析:
2025-05-19 20:00:00
562
原创 如何对vllm模型推理框架,进行并发测试,看看能一次并发多少?
情况您脚本上会看到的表现并发未超限所有请求成功返回,响应时间合理并发轻微超限部分请求超时或失败,少量错误码出现并发大幅超限大量请求失败,超时异常,服务拒绝响应TOTAL_REQUESTS = 10 # 总共发送多少条请求,您可以改{"role": "user", "content": "你好,AI-Sphere-Butler是什么项目?= 200:print(f"[{idx}] 请求失败,状态码:{status}")
2025-05-19 01:00:00
197
原创 如何本地部署Qwen3系列的大小模型235B/32B并进行推理服务及并发测试?
Ubuntu 20.04环境下,本地部署Qwen3系列模型(如Qwen3-32B-FP8、Qwen3-235B-A22B-AWQ)并进行推理服务及并发测试的步骤如下:环境准备:创建模型文件夹并配置Conda源,使用清华镜像加速依赖安装。虚拟环境:创建并激活Conda虚拟环境,安装Python 3.10。依赖安装:安装PyTorch(CUDA 11.8)和vLLM推理框架,支持在线或离线安装。模型下载:使用ModelScope工具下载Qwen3系列模型。
2025-05-18 20:41:51
177
原创 模型量化AWQ和GPTQ哪种效果好?
核心思想:通过自适应调整权重量化方案,以更好地保持模型精度。特点针对不同层或权重分布动态选择量化策略(如不同的bit宽度或量化区间)。尽量减少量化误差,提升量化后模型的性能。优势:灵活性强,适合对精度要求较高的量化应用。适用场景:需要在低bit量化下保持较高模型性能,且对推理速度也有一定要求。GPTQ在大语言模型、特别是4-bit极低比特量化中表现卓越,是当前量化大模型的主流选择。AWQ对于需要灵活精度控制、不同层自适应调节量化的场景更有优势。
2025-05-17 18:45:46
1207
原创 如何查询Ubuntu系统中最大的几个目录以G单位显示大小,从大到小排列?
在Ubuntu 20.04系统中,若需查询并显示系统中最大的20个目录,并按大小从大到小排序,且以GB为单位显示,可以使用以下命令: sudo du -x -b / 2>/dev/null | sort -nr | head -n 20 | awk '{size_in_gb=$1/(1024*1024*1024); printf("%.2fG\t%s\n", size_in_gb, $2)}' 该命令首先使用du扫描根目录所在文件系统,以字节为单位显示目录大小,并通过sort按大小倒序排序。head截取前2
2025-05-16 21:30:00
360
原创 什么是alpaca 或 sharegpt 格式的数据集?
在LLaMA-Factory环境中,Alpaca和ShareGPT是两种常用的数据集格式,分别适用于指令微调和多轮对话训练。Alpaca格式以“instruction”、“input”、“output”为结构,适合单轮任务执行;而ShareGPT格式则表现为多轮对话序列,适合聊天机器人训练。此外,LLaMA-Factory还支持JSON Lines、Plain Text对话格式、Hugging Face Datasets等多种数据格式,以满足不同场景下的模型微调需求。选择合适的格式有助于提高模型训练效率和效
2025-05-14 20:00:00
1263
原创 如何避免和恢复因终端关闭导致的 LoRA 微调中断
在Ubuntu20.04环境下,使用Llama factory对Qwen2.5-7B-Instruct模型进行LoRA微调时,若突然关闭终端窗口,微调进程会被中断
2025-05-13 22:30:00
706
原创 QLoRa微调模型报错:AssertionError: Both operands must be same dtype. Got fp16 and bf16
在Ubuntu 20.04环境下,使用Llama Factory微调Qwen2.5-7B-Instruct模型时,遇到数据类型不匹配的错误(AssertionError: Both operands must be same dtype. Got fp16 and bf16)。该问题是由于模型在训练时同时使用了fp16和bf16两种数据类型,导致冲突。此外,Triton编译器在处理AWQ量化模块时也出现了错误,可能与Triton版本或硬件不兼容。
2025-05-12 00:30:00
493
原创 如何使用Python+本地大模型实现Excel表格数据匹配与填充
本文介绍了如何使用Python结合本地部署的Ollama和72B Qwen大模型,根据tx.xlsx表格中的学校名称,推断并填充其对应的院校性质、院校类型和院校特色信息。通过调用Ollama API,利用Qwen模型的自然语言处理能力,动态分析学校名称并生成相关属性。实现步骤包括:1)部署Ollama并加载Qwen模型;2)调用API获取学校属性;3)解析模型输出并填充表格;4)使用缓存机制提高效率。文章提供了完整的Python脚本示例,展示了如何读取Excel文件、调用API、解析结果并保存更新后的表格。
2025-05-12 00:15:00
1744
原创 ragflow报错:KeyError: ‘\n “序号“‘
这个字符串中存在一个格式化占位符,形如 {…},需要用kwargs中的键去替换,但在 kwargs 字典中没有对应的键 ‘\n “志愿序号“‘ragflow报错:KeyError: ‘\n “序号”’
2025-05-11 00:00:00
367
原创 如何避免在CMD中分段发送问题导致大模型多段回复的问题?
在 Windows CMD 中粘贴多行文本时,命令行会将其拆分为多段发送,导致大模型回复分成多段。为避免此问题,可以通过以下方式解决: 使用文件输入:将长文本保存为 .txt 文件,通过程序一次性读取并发送,确保文本作为整体处理。示例代码展示了如何在 Python 和 Java 中实现。 多行输入标识符:在 Python 中使用三引号 """ 包裹多行字符串,或在 Java 17+ 中使用文本块(Text Blocks)定义多行字符串。
2025-05-10 09:55:04
413
原创 如何实现调用Ollama一次性聊天,不会有历史聊天记录?
在使用Ollama进行多角色或多会话的聊天时,为了避免聊天内容混淆,可以通过以下几种方法进行上下文管理: 重置上下文:在每次API调用时不传递历史消息,确保每次会话独立。 控制上下文保留时间:通过设置keep_alive参数为极短时间,使模型在请求完成后立即释放上下文。 手动清除模型实例:通过REST API删除当前模型实例,强制释放内存中的上下文。 独立会话:为每个角色初始化独立的会话对象,避免不同角色的聊天内容交叉污染。 修改启动配置:调整Ollama的配置文件,优化上下文管理策略。
2025-05-10 09:42:16
1052
原创 Ragflow如何开启服务的日志功能
Ragflow如何开启服务的日志功能,好排查问题。1.更改ragflow_server.py代码。2.更改log_utils.py代码。3.重启服务器,可以显示日志。
2025-05-06 00:30:00
307
原创 Ragflow框架的AI客服回答字数太长,如何优化控制在规定token内?
禁止回复大段文字,任何回答输出的字符一定要保持在30个token。Ragflow框架的AI客服回答字数太长,如何优化控制在规定token内?控制在30token左右。
2025-05-04 00:15:00
191
原创 RAGFlow报错:peewee.OperationalError: (2013, ‘Lost connection to MySQL server during query‘)
RAGFlow。
2025-05-03 00:00:00
211
1
刷写工具.wim rufus-4.0 DiskImage v1.6 WinAll win32diskimager-1.0.0-i
2023-12-05
Ext2Fsd-读取ext4格式的文件系统
2023-11-23
p-NTLite-v2.1.1.7917-x64.exe
2023-11-15
ollama-ipex-llm-2.2.0b20250318-win
2025-03-21
2025年智能家居未来十年发展趋势(25.2.20)
2025-02-20
微软Microsoft BarCode Control 16.0
2024-06-19
虚拟声卡Virtual Audio Cable v4.10PJ.zip
2024-02-23
Virtual Audio Cablev4.15
2024-02-19
CentOS7安装部署zabbix 5.0最后web配置打不开
2021-04-16
TA创建的收藏夹 TA关注的收藏夹
TA关注的人