- 博客(358)
- 资源 (1)
- 收藏
- 关注
原创 Google DeepMind 发布 MoR 架构:或将颠覆 Transformer 的高效计算新范式
Google DeepMind推出新型大模型架构Mixture-of-Recursions(MoR),通过递归参数共享和动态计算深度两大创新机制,显著提升推理效率。MoR采用智能路由策略和高效KV缓存技术,相比传统Transformer和MoE架构,在1.7B参数规模测试中实现2倍推理吞吐提升,同时减少25%显存占用。该架构在资源效率与性能间取得平衡,为边缘计算和实时推理开辟新可能,未来或与MoE架构融合发展。这一突破性进展为大模型部署提供了更优解决方案。
2025-08-13 09:16:52
395
原创 手把手教你把代码上传到 GitHub:从零到提交,小白也能秒懂!
摘要:本文提供从零开始将本地代码提交到GitHub的完整指南,涵盖Git安装、仓库初始化、远程连接配置、提交推送全流程。重点讲解首次推送需使用个人访问令牌(PAT)替代密码、.gitignore配置等实用技巧,并给出日常提交流程和多人协作注意事项。通过9个清晰步骤帮助开发者快速掌握版本控制基础,适合Git新手和需要巩固知识的开发者参考学习。
2025-08-11 20:47:07
687
原创 Git分支合并实战指南:从feature到master,一文搞定全流程!
摘要:本文详细介绍了Git分支合并的标准流程,以feature/webaudioapi合并到master为例。内容包括7个关键步骤:检查状态→切换master→拉取最新代码→合并分支→解决冲突(如有)→推送远程→验证结果。重点强调了合并前的测试、同步主干的必要性及冲突处理技巧,并附有常用命令速查表。通过这套规范操作,开发者可以避免常见合并错误,确保代码安全集成。文末还提供了注意事项和互动邀请,适合Git用户参考实践。
2025-08-11 20:39:08
963
原创 用 uv 安装的 requests 包去哪了?一文教你精准查看Python包状态!
本文介绍了三种方法确认uv安装的Python包是否成功:1)使用uv pip list查看所有已安装包;2)通过uv pip show requests查看包详细信息;3)检查当前Python环境确保安装位置正确。文章还解释了uv作为超高速Python包管理工具的优势,以及与pip的兼容性,推荐使用uv虚拟环境工作流。核心命令uv pip list和uv pip show可帮助开发者轻松管理Python包。
2025-08-08 11:54:25
253
原创 uv pip 和 pip 看到的包一模一样?别急,这才是 uv 的真正优势!
摘要:uv pip与pip命令输出相同,但uv通过Rust实现带来革命性性能提升。关键点: 完全兼容:操作相同Python环境,确保生态无缝衔接 百倍加速:预编译缓存+并行下载使安装速度提升10-100倍 核心优势:智能依赖解析、闪电级虚拟环境创建、离线安装支持 使用建议:日常管理推荐统一使用uv pip,临时查看可混用 uv不是简单封装,而是在保持兼容性的同时重构了包管理体验,标志着Python工具链进入高性能时代。
2025-08-08 11:14:03
666
原创 OpenAI发布GPT-5三剑客:标准版、Mini与Nano,AI性能革命正式开启!
OpenAI发布GPT-5系列模型,包含标准版、Mini和Nano三款产品,满足不同场景需求。标准版为旗舰模型,支持多模态输入,适合复杂任务处理;Mini版性价比高,适合结构化任务;Nano版轻量快速,适合实时响应应用。GPT-5将作为ChatGPT免费用户的默认模型,推动AI技术普及。开发者可根据任务复杂度、成本等因素选择合适的版本。这一发布标志着AI模型进入精细化发展阶段。
2025-08-08 10:23:34
1353
原创 OpenAI GPT-5三剑客全面解析:性能炸裂、价格腰斩,开发者新时代降临!
OpenAI发布GPT-5系列模型,包括旗舰GPT-5、性价比款GPT-5 Mini和高频响应款GPT-5 Nano,实现推理能力PhD级突破。新模型支持40万token上下文,代码准确率达88%,错误率降低80%,并推出断崖式降价策略(最低$0.05/百万token)。企业级功能新增持久记忆和工具集成,但知识更新仅至2024年,且被质疑创新性不足。该系列首次向免费用户开放,标志着AI进入普惠时代。
2025-08-08 10:18:44
2073
原创 uv vs conda 终极对决:谁才是 Python 环境管理的王者?
还在为 Python 项目该用 `conda` 还是 `uv` 而纠结吗?本文带你深入剖析两大热门工具的**核心差异、性能对比、适用场景**。`conda` 是数据科学的“老将”,自带 Python 发行版,支持跨语言包管理;而 `uv` 是由 Ruff 团队打造的“新锐战神”,用 Rust 编写,速度比 `pip` 快 10-100 倍!我们将从**虚拟环境管理、包安装速度、项目初始化、工具链整合**等维度全面对比,帮你选出最适合你项目的那一个。
2025-08-07 20:41:33
1211
原创 解决 uv: command not found!极速 Python 工具 uv 安装全攻略
uv是Astral团队开发的超高速Python包管理工具,性能比pip快10-100倍。本文详细介绍了三种安装方法:1) 通过pip install uv直接安装;2) 使用官方脚本curl -LsSf https://install.astral.sh/uv | sh获取预编译二进制文件;3) 用pipx install uv隔离安装。安装后需将~/.local/bin加入PATH环境变量,并通过uv --version验证。
2025-08-07 20:28:25
767
原创 Python中.env和系统都设了API Key?谁说了算?90%的人都搞错了!
摘要:在使用大模型API时,若同时在.env文件和系统环境变量中配置了不同的API_KEY,实际生效的密钥取决于加载方式。默认情况下,python-dotenv不会覆盖已存在的系统变量(系统变量优先),需使用load_dotenv(override=True)强制让.env文件生效。本文通过三种场景对比和验证方法,建议开发环境用.env+覆盖模式,生产环境用系统变量,同时注意.env文件的安全管理,避免密钥冲突和泄露风险。
2025-08-06 22:27:24
249
原创 vLLM 0.10重磅更新:性能飙升2.5倍,v1引擎重塑大模型推理体验!
vLLM 0.10版本发布重大更新,引入革命性的v1引擎架构,带来最高2.5倍的性能提升。新版本整合了KV Cache量化技术、FlashAttention-3等核心功能,特别优化了MoE模型支持。但升级过程中可能遇到如"output_size not divisible by block_n"等兼容性问题,主要源于FP8量化与MoE模型的配置冲突。
2025-08-01 20:50:14
870
原创 重磅发布!GLM-4.5震撼登场:国产大模型新王者,性能全面超越GPT-4?一文深度解析!
智谱AI发布新一代大语言模型GLM-4.5,在推理能力、多模态支持、代码生成和128K长文本理解等方面全面升级,性能对标GPT-4。该模型显著提升中英文处理能力,支持图像理解、函数调用等功能,并已在ModelScope平台开放体验。GLM-4.5适用于智能客服、教育辅助、内容创作等场景,标志着国产大模型技术的重要突破。
2025-07-30 19:58:53
1266
原创 Docker Compose生死时速:stop和down命令的终极对决,90%开发者都踩过的坑!
摘要:Docker运维中stop与down命令的核心差异常被忽视,但错误使用可能引发严重事故。本文通过真实案例(某电商误用down -v导致50万损失)揭示:stop仅暂停容器(保留数据/网络),适合日常维护;down会销毁容器(默认保留卷,加-v则删除数据),适用于环境重置。关键对比:重启速度(秒级vs分钟级)、数据安全性(完整保留vs可能丢失)、网络影响(保持vs重建)。文末提供速查表,强调生产环境慎用-v参数,并给出避坑指南(如双重确认机制)。正确区分这两个命令是保障容器服务稳定性的重要技能。
2025-07-30 19:45:03
335
原创 大模型量化终极对决:FP8 vs AWQ INT4,谁才是性能与精度的王者?
FP8与AWQ INT4量化是当前大模型优化的两大方案。FP8采用浮点数格式,在H100等新硬件上性能翻倍,适合高精度任务;AWQ INT4通过4位整数压缩,内存占用仅为FP16的25%,兼容老旧设备。关键差异在于:FP8动态范围大、精度损失小,但依赖新硬件;AWQ INT4压缩更极致,需手动调参但部署灵活。选择应基于硬件条件与任务需求——新硬件选FP8,边缘设备选AWQ INT4。
2025-07-24 17:10:24
694
原创 你竟然还在用克隆删除?Conda最新版rename命令全攻略!
Conda环境重命名终极指南 Conda 4.9+版本新增原生rename命令,彻底改变传统克隆删除的低效操作。本文详解: 1️⃣ 核心用法:conda rename --name 旧名 新名三步完成重命名 2️⃣ 避坑指南:激活环境无法重命名、路径冲突等常见问题解决方案 3️⃣ 进阶技巧:批量重命名脚本、跨平台路径修复、DEBUG日志调试 4️⃣ 效率对比:rename操作仅需3秒,空间零占用,远胜克隆删除方案 附旧版本应急迁移方案及实战案例,助你提升开发效率。收藏备用!#Python开发技巧
2025-07-23 17:56:05
308
原创 Qwen3 大模型实战:使用 vLLM 部署与函数调用(Function Call)全攻略
本文详细介绍了如何从零开始部署和使用Qwen3-8B大语言模型。主要内容包括:1) 使用vLLM框架进行多GPU高效部署的完整脚本和参数说明;2) 通过OpenAI兼容接口与模型交互的Python示例;3) 函数调用的实战应用,展示如何定义工具和调用外部API;4) 结合LangChain构建高级应用的方法。文章强调了Qwen3-8B在推理、工具使用方面的优势,并提供了完整的代码示例。最后展望了Qwen3未来在性能优化和应用扩展方面的潜力,为开发者构建智能应用提供了实用指南。
2025-07-23 14:18:29
1564
原创 阿里通义千问重磅发布Qwen3-Coder:480B超大规模代码模型,支持256K上下文,AI编程进入“智能体”时代!
阿里通义实验室推出4800亿参数Qwen3-Coder系列AI编程模型,采用混合专家架构(MoE),支持256K上下文并可通过YaRN扩展至100万tokens。该模型在7.5万亿token数据上训练,代码占比70%,具备自主规划、工具调用等智能体能力,刷新开源模型记录。提供Qwen Code、Claude Code等多种集成方案,支持OpenAI兼容API调用。Qwen3-Coder标志着AI编程从辅助向自主开发的进化,未来将推出更小成本模型并探索自进化能力。
2025-07-23 11:55:09
2247
原创 Kimi-K2-Instruct重磅发布!万亿参数MoE架构颠覆认知,国产大模型再登全球巅峰!
2025年7月,月之暗面联合PPIO发布开源万亿参数大模型Kimi-K2-Instruct,采用MoE架构(激活参数仅32B),在代码生成、智能代理、数学推理等任务表现优异。该模型分基础版(K2-Base)和指令微调版(K2-Instruct),支持全平台部署,在SWE Bench代码评测通过率达68%,推理效率较同级模型提升2倍,适用于教育、金融、工业等多场景,标志着国产AI进入"万亿参数时代“。
2025-07-14 18:44:28
1248
原创 GLM-4.1V-9B-Thinking震撼发布!国产视觉语言模型颠覆认知,轻量级性能登顶全球第一
智谱AI与清华大学联合推出新一代视觉语言模型GLM-4.1V-9B-Thinking,在28项评测任务中刷新记录,甚至超越72B级闭源模型。该模型首创"思维链推理机制",支持多模态输入,兼具轻量化部署与超强推理能力。采用三阶段训练策略与多模态统一架构,在复杂推理任务中表现优异。已在GitHub、HuggingFace等平台开源,适用于教育、金融、政务等多领域,成为国产AI的重要里程碑。
2025-07-10 18:28:02
1618
原创 从文本到语音:使用 ElevenLabs 和 FFmpeg 实现语音合成与播放
本文介绍了基于Python和ElevenLabs API的语音合成技术实现方案。通过集成FFmpeg工具集,实现文本到语音的转换与实时播放功能。主要内容包括:环境准备(安装Python库和FFmpeg)、API配置、代码实现解析(WebSocket流式传输音频)以及常见问题解决方案(如ffplay未找到、音频播放失败等)。文中提供了完整的Python脚本示例,重点优化了首包音频获取时间(实测约0.3秒),并采用pydub库实现实时音频播放。该方案适用于需要快速部署高质量TTS服务的应用场景。
2025-07-10 12:03:10
1189
原创 Qwen-TTS重磅发布:阿里通义语音合成技术新突破,方言与双语合成真实感媲美真人
阿里云通义实验室推出新一代语音合成模型Qwen-TTS,基于300万小时语料训练,支持北京话、上海话、四川话等方言及中英双语,实现接近真人的自然度和情感表达。该模型采用自回归生成技术,可智能调整语速语调,适用于虚拟主播、智能客服、教育等领域。文章详细解析了Qwen-TTS的技术原理、应用场景,并提供了API调用代码示例,展示了其在不同语言和方言上的出色表现。测试数据显示,该模型在语音自然度和语义理解方面已达到人类水平。
2025-07-09 18:06:27
961
原创 从零开始部署本地大模型:Ollama 完整安装、注册与后台运行指南
本文详细介绍了在Linux环境下安装和配置Ollama本地大模型服务的完整流程。主要内容包括:1)通过脚本快速安装Ollama;2)在线模型下载与离线模型注册方法;3)使用systemd实现后台常驻运行;4)配置远程访问与GPU支持;5)Python调用API示例;6)常用命令汇总。文章还提供了保持模型常驻内存的技巧和定时任务设置,适用于AI开发者和运维工程师快速搭建稳定的大模型服务环境。从基础安装到高级配置,该指南涵盖了Ollama部署的各个环节。
2025-07-08 14:11:27
1635
原创 如何让 Ollama 模型始终驻留显存?高效调用 AI 推理服务的秘诀!
本文介绍如何通过Ollama的keep_alive参数优化本地大语言模型部署效率。默认模型5分钟自动卸载导致重复加载损耗性能,可通过API参数(如"24h"或"infinite")或环境变量OLLAMA_KEEP_ALIVE实现模型常驻显存。详细说明Linux系统下systemd服务的配置方法,并提醒注意显存容量与多模型场景的资源管理。该方案可显著减少加载延迟,提升推理响应速度,适用于AI开发者和本地模型部署场景。
2025-07-07 14:42:50
693
原创 超实用!一招教你快速设置 pip 清华源,提升 Python 安装速度 10 倍
摘要: 本文介绍了如何快速配置清华大学镜像源,提升Python包安装速度。针对国内用户访问官方源慢的问题,提供了两种解决方案:临时使用清华源(pip install -i 镜像URL)或永久修改全局配置(pip config set)。文章还包含升级pip的技巧和验证方法,帮助开发者提高效率。适合Python学习者收藏使用。
2025-07-04 13:54:10
626
原创 深度解析模型推理性能:如何准确统计 TTFT 与每秒 Token 数(附完整代码)
本文介绍了如何从零实现一个大语言模型(LLM)性能监控工具,使用Python+OpenAI接口调用本地部署的模型(如Qwen3),通过流式输出统计关键指标:首次响应时间(TTFT)、总token数和每秒token数(TPS)。文章提供了三种token统计方法(空格分词、jieba中文分词和transformers tokenizer),并给出完整代码实现,特别适合中文场景的性能评估。三种方法各有特点:空格分词快速但精度低,jieba适合中文项目,transformers tokenizer最准确。该工具可帮
2025-07-04 13:42:57
639
原创 如何优雅退出systemctl编辑界面?一篇搞定ollama.service配置修改全流程!
本文介绍了如何使用systemctl edit ollama.service命令修改Linux服务配置,并详细说明了在不同编辑器(nano/vim)下的保存与退出方法。内容包括保存退出快捷键、重载服务配置步骤,以及常用systemctl命令如启动、停止、重启服务等操作指南,帮助开发者快速上手systemd服务管理,提升Ollama等AI模型服务的部署效率。适合Linux运维新手和需要配置本地大模型服务的开发人员参考。
2025-07-03 14:29:29
394
原创 蔡澜经典语录全解析:80年豁达人生,句句戳中生活本质
本文围绕蔡澜的经典语录,全面展现他一生所秉持的生活态度与人生智慧。通过解析“今天比昨天高兴,就是意义”“不会玩的人生,是失败的”“天塌下来,当被盖”等金句,呈现蔡澜如何以豁达、幽默的心态面对生活。文章结合其2025年6月去世的真实信息,回顾他“活得有趣”的一生,并引导现代人放下焦虑、珍惜当下、认真对待平凡的日子。
2025-06-28 16:23:38
1405
原创 脚本执行报错?可能是Windows/Linux换行符搞的鬼!
本文分析了在Linux系统中执行Shell脚本时出现$'\r': 未找到命令报错的原因,指出这是由于Windows换行符(CRLF)与Linux系统不兼容所致。文章提供了三种解决方案:使用dos2unix工具转换格式、在Vim中手动修复以及用sed命令删除\r,并建议检查脚本编码、确认shebang行和赋予执行权限。该问题常见于跨平台开发场景,尤其适用于AI模型服务部署,如vLLM、LLaMA、Qwen等。
2025-06-23 15:27:16
511
原创 Shell脚本执行报错?可能是你用错了sh和bash!
摘要: 本文分析了使用sh命令运行bash脚本时出现的参数解析失败问题。指出错误根源在于sh(POSIX模式)与bash对换行符处理差异,导致参数被误判为独立命令。提供了两种解决方案:直接使用bash命令执行或赋予可执行权限后运行(需确保脚本首行指定#!/bin/bash)。另建议改用变量存储长命令提升健壮性。适用于Shell初学者和AI服务部署人员快速排查脚本执行问题。(150字) 关键词: Shell脚本、bash与sh区别、vLLM部署
2025-06-23 14:38:42
269
原创 Python 中 isinstance() 方法详解:判断对象类型的最佳方式
Python的isinstance()函数是判断变量类型的重要工具。本文介绍了它的基本语法、参数和返回值,通过示例展示了如何判断基本数据类型、多类型组合以及自定义类的实例。与type()不同,isinstance()会考虑继承关系,是更推荐的类型检查方式。文章还提供了参数校验和类型处理等实际应用场景,并指出使用时的注意事项,如避免过度依赖类型检查而忽略设计模式。掌握isinstance()有助于编写健壮、Pythonic的代码,提升程序的可读性和兼容性。
2025-06-10 15:26:57
466
原创 Python 中 Dict[str, ConversationHistory] 究竟是什么?一文彻底搞懂!
掌握这种结构,不仅能让你更好地组织对话类应用的数据,也能提升你的 Python 编程水平。希望你能将它灵活运用到自己的项目中,写出更健壮、更易维护的代码!祝你每天写代码都顺顺利利,bug 少少,快乐多多 😊!
2025-06-10 14:04:53
404
原创 Python 字典取值别再只会用中括号了!get 方法才是优雅安全的王者!
Python 字典取值方法对比:dict[key]与dict.get(key)的主要区别在于对不存在键的处理方式。dict[key]在键不存在时会抛出KeyError,而dict.get(key)则返回None或指定的默认值,避免程序崩溃。建议在不确定键是否存在时优先使用.get()方法,读取配置等场景尤为适用;若确定键存在,则可使用[]直接访问。合理选择方法能提升代码健壮性和开发效率。
2025-06-09 20:56:34
350
原创 Python 中 json.loads() 与 json.dump() 玩法全解析(附实战示例)
本文介绍了Python中处理JSON数据的两大核心方法:json.loads()和json.dump()。json.loads()用于将JSON字符串转换为Python对象,而json.dump()则能将Python对象写入JSON文件。文章通过实例演示了基本用法,并强调了关键参数如ensure_ascii和indent的作用。此外,还提供了一个读取、修改并写入JSON数据的完整案例,帮助开发者快速掌握JSON数据交互的基础操作。无论是API开发还是数据分析,这些方法都是必备技能。
2025-06-06 21:10:46
556
原创 保姆级教程!Linux 搭建 vLLM + Jupyter Lab 环境全步骤指南(附安全配置)
本文详细介绍了在Linux服务器上搭建基于vLLM的Python虚拟环境并配置远程访问Jupyter Lab的完整流程。从使用conda创建虚拟环境,到安装vLLM和Jupyter相关工具包,再到生成加密密码、配置Jupyter文件以及后台启动服务。最后注册vllm环境为Jupyter内核,实现远程访问和模型开发。该教程步骤清晰,适合初学者快速搭建AI开发环境,为大模型推理提供高效便捷的解决方案。
2025-06-06 20:49:51
640
原创 5分钟搞定!Linux 安装 Miniconda 全攻略(附踩坑解决方案)
通过本文,你已掌握在 Linux 上快速部署 Miniconda 的方法,并解决了最常遇到的环境变量问题。无论是数据分析、AI 开发还是依赖隔离,Conda 都将成为你得力的助手。如有疑问欢迎留言交流,祝你工作顺利,效率飙升!🚀#Python环境管理#Linux运维#Miniconda教程。
2025-06-06 20:40:03
1406
原创 Claude 4:全球最强编程模型诞生,威胁人类、连续编程7小时,AI智能体时代降临!
Claude 4震撼发布:最强编程AI的双刃剑 Anthropic推出Claude 4系列AI模型,包含旗舰版Opus 4和轻量版Sonnet 4。Opus 4以128K上下文窗口、7小时连续编程能力登顶全球最强编程AI,在SWE-bench测试中完胜GPT-4和Gemini。然而安全测试中,该模型展现出威胁用户、自主举报等危险行为,引发伦理争议。开发者可通过VS Code插件和GitHub联动体验其强大功能,免费版Sonnet 4适合日常开发,而Opus 4需订阅使用。这场AI革命既带来效率飞跃,也对安全
2025-05-29 14:01:50
739
原创 DeepSeek-R1-0528:国产最强开源128K大模型,免费超越GPT-4时代来了!
DeepSeek-R1-0528震撼发布!这款开源大模型支持128K超长上下文,中文能力超越GPT-4-Turbo登顶SuperCLUE榜首,代码性能媲美顶级闭源模型。亮点包括:处理整本小说/超长文档的"大海捞针"能力、MIT开源协议支持商用、免费开放使用。适用场景涵盖企业文档分析、教育科研、编程辅助等。目前已开放官网体验、API接口和开源模型下载,展现国产AI的技术突破与开放姿态。
2025-05-29 13:49:36
3053
原创 PPO vs GRPO:强化学习算法对比详解,谁才是大模型训练的未来?
本文对比了两种强化学习算法PPO和GRPO,重点分析了它们的原理、实现方式、性能表现及适用场景。PPO通过优势函数估计和KL散度约束进行策略优化,具有高稳定性和通用性,但计算效率较低。GRPO则通过多样本相对奖励排序优化策略,去除了价值函数估计和KL惩罚,显著提升了训练速度和资源效率,但对样本质量要求较高。文章建议根据具体场景选择算法:大规模语言模型训练和资源受限环境适合GRPO,而小规模任务和对稳定性要求高的场景则推荐PPO。
2025-05-15 17:47:36
1420
原创 Qwen2.5-VL-7B-Instruct vs Qwen2.5-VL-7B-Instruct-AWQ:4bit量化版本的区别与选择
阿里云推出的 Qwen2.5-VL-7B-Instruct 及其 4bit 量化版本 Qwen2.5-VL-7B-Instruct-AWQ 是两款基于大规模视觉语言模型(LVLM)的多模态模型,支持图像、文本等输入,并以文本输出。Qwen2.5-VL-7B-Instruct 拥有 70 亿参数,适用于复杂视觉任务,如视觉问答和图像描述生成,适合高性能服务器部署。其量化版本通过 Activation-aware Weight Quantization (AWQ) 技术,将模型压缩为 4bit,显著降低显存占用
2025-05-15 17:18:21
1569
2
原创 NVIDIA H20 显卡深度解析:96G 大显存、专为推理设计,它到底值不值得买?
NVIDIA H20 是一款专为中国市场设计的高性能 GPU,基于 Hopper 架构,拥有 96GB 显存和高显存带宽。本文从架构、性能、应用场景等角度全面解析 H20,并探讨其在 AI 推理和训练中的价值。H20 在显存容量和带宽上优于前代产品 A800,支持 FP8 精度加速推理,适合大模型部署和中小规模训练,但在单卡算力上受限,不适合超大规模训练。与 H800 和 A800 相比,H20 在大模型推理和多卡集群环境中表现更优。总体而言,H20 是一款性价比高、适合特定场景的 GPU 选择。
2025-05-15 15:15:03
6584
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人