Tian Fengshou-CSDN博客

原创 QEMU 与 KVM 深入指南：从镜像格式到 OpenStack 实践（2025 全面升级版）

本文全面讲解 QEMU 与 KVM 虚拟化体系的工作原理、镜像格式差异、源码结构、安装方法与命令实操。结合 2025 年的最新虚拟化生态，覆盖了 OpenStack 镜像管理（Glance）、Nova Compute 配置、镜像扩容与转换、cloud-init 自动化镜像、以及 QEMU 9.x 的现代特性。无论你是云平台运维、虚拟化开发者，还是系统研究人员，这篇文章都能帮你真正理解「QEMU 是如何支撑整个云计算世界的」。

2025-10-24 09:06:58 1088

原创从微调到蒸馏——2025 年大模型轻量化技术全景解析

摘要： 2025年大模型轻量化技术进入系统化时代，从微调、蒸馏到量化与剪枝，技术演进推动智能普惠。阿里Qwen3通过多尺度Transformer实现系统协同优化；DeepSeek提出“天生轻量”的压缩感知训练；ChatGPT OSS采用分布式轻量化，多模型协作完成任务。MiniCPM3与Phi-3.5分别以语义聚合蒸馏和多轮知识重放提升小模型能力。未来趋势包括自蒸馏、动态轻量化和Agent协作社会，轻量化技术正让AI从“巨脑时代”走向“智能普惠”。

2025-10-19 17:03:53 988

原创 Agent 时代的大模型演化：从 ChatGPT 到多智能体协作系统

人类与 AI 的关系，正在从“我命令你”转向“我们一起完成任务”。当机器开始具备目标、记忆与协作能力，它就不再只是执行者，而成为合作者。Agent 时代，不是工具升级，而是智能范式的转变。它让机器第一次接近“自主”，也让我们第一次面对“数字生命”的概念。未来的程序员，可能不再是写代码的人，而是训练 Agent 团队去写代码的人。未来的社会，也许会是一场“人类与 AI 共同演化的协作实验”。

2025-10-16 22:05:59 1306

原创 GPT-oss + vLLM + LobalChat

摘要： gpt-oss与vLLM的深度适配通过MXFP4量化、MoE架构优化及定制化内核实现高效部署，如120B模型仅需63GB显存。vLLM的PagedAttention和连续批处理技术显著提升吞吐量，支持高并发。LobeChat通过兼容OpenAI API快速集成vLLM，三步即可完成配置，支持工具调用与长上下文。需注意硬件兼容性及生产部署建议，如H100/B100显卡及Kubernetes扩缩容方案。该组合大幅降低大模型应用门槛，实现高性能推理与便捷前端集成。

2025-10-16 21:51:20 1086

原创 FFmpeg 不同编码的压缩命令详解

本文详细解析了FFmpeg视频压缩的核心逻辑和主流编码器的实用命令。重点介绍了H.264（兼容性最强）、H.265（压缩率更高）、VP9（适合网页）和AV1（未来趋势）四种视频编码的压缩参数设置，包括CRF质量控制、比特率设置和预设选择等关键技术点。同时涵盖了AAC、MP3和Opus三种常用音频编码的搭配方案，并提供了分辨率调整和帧率优化的进阶压缩示例。文章强调应根据实际需求在压缩速度、文件大小和兼容性之间权衡，推荐了不同场景下的最佳编码选择和参数组合，帮助用户实现高效的媒体文件压缩。

2025-09-01 11:11:04 1214

原创大模型及相关工具对科研工作与社会生活的影响：基于权威期刊的深度分析

大模型正深刻变革科研范式与社会生活：在化学领域，上海交大团队开发的化学大语言模型首次实现有机合成全流程加速，人机协作框架仅用15次实验完成新型交叉偶联反应；在医学领域，1760亿参数医疗模型实现跨专科诊断推理，但面临数据投毒攻击风险（0.001%污染即可传播错误）。未来需突破算力瓶颈、统一评估标准，并构建伦理治理框架以平衡创新与风险。

2025-08-15 15:40:54 1141

原创 Ollama快速找量化模型名称的4种实战方法

本文提供4种快速查找Ollama量化模型名称的方法：1）官网模型库精准搜索，使用量化关键词；2）参考社区热门模型名称；3）通过HuggingFace过滤.gguf文件获取Ollama名称；4）命令行自动检索。文末附常用模型名称模板和实战示例，3分钟内即可找到适合的量化模型。终极技巧是在TheBloke页面搜索"Ollama"直接获取完整下载命令。

2025-08-13 11:35:20 843

原创 Ollama 核心命令速查

Ollama 简明使用指南核心功能：基础命令：run/pull/list/rm 管理模型常用模型：llama3/deepseek-coder/qwen等交互命令：/set//clear//bye调整会话支持自定义模型和API调用（默认端口11434）使用注意：首次运行自动下载模型（2-4GB） Windows需管理员权限可修改存储路径和环境变量包含模型管理、交互控制、API调用和常见问题解决方法，适合快速上手本地大模型部署。

2025-08-13 11:31:21 512

原创基于LabelMe 中文版的菌群图像数据标注方案

本项目面向医学背景本科生参与的省级人工智能竞赛，提出了一套基于 LabelMe 的标准化图像标注流程，专用于菌落图像的语义分割任务。流程涵盖从图像准备、标注规范、格式转换到多人一致性评估与复审机制，确保训练数据的高质量与高一致性。通过角色分工（标注员、审核员、终审员）及 IoU 与 Kappa 指标评估，提升数据可靠性，最终形成可用于训练语义分割模型的数据集，为后续的模型开发奠定坚实基础。

2025-07-26 11:46:07 733

原创强制重装 GlusterFS（谨慎操作）

强制重装 GlusterFS 是解决配置损坏或节点异常的最后手段，可能导致数据丢失，因此建议优先尝试数据恢复。操作前务必备份重要数据。重装步骤包括：停止 Gluster 服务、卸载挂载点、清理配置、卸载软件包、重新安装 GlusterFS、重新配置并启动服务、重新加入存储池、创建存储卷，最后验证集群状态和客户端挂载。建议检查日志、确保版本兼容性，并合理规划分布式存储策略。

2025-05-20 10:34:06 855

原创 UserWarning: Glyph 26399 (\N{CJK UNIFIED IDEOGRAPH-671F}) missing from font(s) DejaVu Sans.

在Windows 11系统中，使用Python绘图时可能会遇到字体缺失的警告，如 Glyph 26399 (\N{CJK UNIFIED IDEOGRAPH-671F}) missing from font(s) DejaVu Sans.，这表示 DejaVu Sans 字体无法显示某些CJK统一表意文字。解决方法包括：1) 更换为支持中文的字体，如 SimHei；2) 忽略警告（不推荐）；3) 安装包含缺失字符的字体包，如 Noto Sans CJK。对于Windows用户，可以通过下载并安装字体文件来解

2025-05-14 21:12:36 811

原创 AI 开源开发工具对比全景解析：协议、专利与生态全维度评估

本文详细对比了7款热门AI工具在开源协议、商用许可、专利申请、二次开发与AI适配性及国际化支持等多维度的信息。文章深入解析了Dify、FastGPT、Langflow、Rasa、PySpur、Flowise和LangChain等工具的核心能力及适用场景，从企业级中台建设到低代码原型开发，为技术团队和企业决策者提供了清晰的参考。选型建议涵盖复杂对话系统、多模态代理及高精度文档解析等应用场景，旨在帮助读者在纷繁的AI生态中找到最匹配的解决方案，推动企业数字化转型与AI创新。

2025-03-09 13:09:18 2813

原创 Python实现过年烟花效果及打包成可执行文件

Pygame初始化与屏幕设置：初始化Pygame并设置屏幕大小。颜色与字体定义：定义烟花和文字的颜色，并加载书法字体。烟花粒子类：定义烟花爆炸后的粒子效果。烟花类：定义烟花的发射、爆炸和绘制逻辑。文字效果：实现七彩渐变文字的绘制。主循环：控制烟花的生成、移动、爆炸以及文字的滚动显示。接下来，我们将逐一讲解这些模块的实现细节。#定义颜色COLORS=[(255,0,0),#红色(255,165,0),#橙色(255,255,0),#黄色。

2025-01-19 20:46:51 1227 1

原创 pyinstaller : 无法将“pyinstaller”项识别为 cmdlet、函数、脚本文件或可运行程序的名称。

如果无法识别，通常是因为环境变量未正确配置。可以通过将Scripts目录添加到环境变量，或者使用完整路径来解决问题。使用也是一种有效的解决方法。

2025-01-19 20:31:23 2369

原创具身智能：原理、实例与未来展望

具身智能（Embodied Intelligence, EI）是指智能体通过物理身体与环境的实时交互，实现感知、决策和行动的能力。其核心思想是“智能源于身体与环境的互动”，而非仅仅依赖于抽象的计算或符号处理。具身智能强调智能体在物理世界中的主动性和适应性，通过多模态感知和动态交互，完成复杂任务。

2025-01-18 10:28:51 9900

原创关于置信学习的文献综述

置信学习的核心思想在于使用模型计算的预测概率来定位错误标签。通过评估模型输出与标签之间的置信度，置信学习能够自动检测和校正这些错误。评估标签置信度：根据预测概率计算各个样本置信值。检测错误标签：进一步评估优惠值，标记低置信样本。正确标签或移除废值：对不合理数据进行数据清洗或重新正确化。置信学习使用统计分析方法，如 Z-Score 和 IQR，检测移动偏移过大的样本。该算法适合低维数据，但对高维数据效果有限 (Cheng et al., 2020)。

2025-01-03 16:39:52 1226

原创文本分类中的离群值特征

对于小规模数据集，可以使用文本长度统计或词向量相似度分析快速检测异常样本。对于大规模和高维数据集，可以使用自动编码器或主题建模分析发现语义离群值。高级方法如BERT 嵌入向量和更适合复杂文本分布的离群值检测。根据具体任务需求选择合适的检测和处理方法，有助于提高模型的鲁棒性和分类性能。

2025-01-03 16:31:26 744

原创深度学习中的离群值

深度学习中的离群值可能来源于输入特征或标签的异常分布，对模型训练和预测精度产生负面影响。因此，可以通过数据预处理、鲁棒损失函数、正则化、数据增强和异常检测模型等方法降低其影响。同时，对于更复杂的问题如对抗样本，需要额外设计防御机制来保护模型安全性。此外目前也有专门用于处理数据集标注错误的深度学习模型，有兴趣的朋友可以去自行了解一下。深度学习中存在异常值，并且会产生负面影响。可以直接使用 Z-Score 或 IQR 等统计方法检测异常值。

2025-01-03 16:27:04 1766

原创什么是离群值？如何检测？

Outliers（离群值），也称逸出值，是指在数据集中显著偏离其他数据点的值。这些值与大多数观测值之间存在明显的差异，可能是由于异常情况、测量错误、数据输入错误或真实的罕见现象导致的。异常值：主要关注数据错误，倾向于剔除或修复。离群值：关注模式异常，倾向于分析背后的原因。Z-Score 和 IQR 适合小规模数据分析。Isolation Forest 和 LOF 适合处理复杂、高维数据集。箱线图和散点图便于初步探索数据分布和潜在异常值。根据数据特性和具体需求选择合适的方法进行分析。

2025-01-03 16:19:32 3018

原创 PowerShell 信息，请参阅 https......_Execution_Policies

默认情况下，PowerShell 具有安全策略来防止运行未经授权的脚本，以保护系统安全。文件 → 属性 → 检查“解除锁定”（Unblock）选项。注意：执行修改策略必须用管理员运行PowerShell。注意：这是自带的解释，不推荐永久修改脚本执行策略。请按上述步骤检查和处理，如果还有问题请继续反馈！在管理员模式下重试上述步骤。，以防运行恶意代码。

2025-01-02 15:44:40 714

原创联邦学习防止数据泄露

它允许在分散的数据源上进行模型训练，而无需将数据集中到中央服务器。因此，联邦学习可以有效地防止训练过程中的数据泄露，并提高数据隐私安全性。进行模型的联合训练，所以联邦学习为了还有一个很重要的使用途径，就是同行业的跨公司商业合作，比如金融行业联合构建欺诈检测模型，不过考虑到实际的行业竞争关系，应该只有在少数特定业务上才会有真正落地的可能。联邦学习的核心思想是将模型训练过程分散到多个设备或服务器上，每个设备或服务器只处理本地数据，并将训练结果发送给中央服务器进行聚合。以下是几个比较常见的应用行业。

2024-12-20 22:03:09 1253

原创人工智能 (AI) 模型的数据泄露问题

人工智能 (AI) 模型的数据泄露问题指的是模型训练过程中，训练数据的信息被泄露到模型输出中，导致模型对未见过的数据产生偏差或错误预测。

2024-12-20 22:00:54 2638 1

原创 Data governance, data literacy, and data quality management:A literature review

With the rise of the data era, data governance, data literacy, and data quality management have emerged as the core pillars of organizational data management. This paper reviews these three areas, examining their definitions, interconnections, and applicat

2024-11-19 20:05:51 882

原创数据治理、数据素养和数据质量管理：文献综述

随着数据时代的到来，数据治理、数据素养和数据质量管理成为组织数据管理中的三大核心概念。本文基于相关研究与实践，对这三个领域进行全面综述，探讨它们的定义、相互关系及其在数据中台与AI数据服务中的体现。通过结合中国互联网企业的实践，提出数据中台作为现代数据治理的重要工具，其在数据治理、数据挖掘及智能化应用方面的优势。

2024-11-19 20:03:30 1475

原创（2024）AttributeError: module ‘numpy‘ has no attribute ‘object‘.

这个错误是numpy版本不一致造成的，比如在TensorFlow2.4.3中，使用的事numpy1.19.X版本的numpy，但是1.20中已经移除了该方法。（1）TensorFlow升级。（2）numpy降级。

2024-11-10 11:19:41 1763 2

原创如何解决网络应用运行中的审核问题【系列研究预告】

人工智能算是一个可行的方法，但是问题在于成本太高。一个网站上一天可能有上亿条的文本，近期在和某高效一起研究某教育政策的网络影响确实也发现了一些问题，和我一起合作的研究者本人就是这个教育政策指定人之一，目前就是后续的研究就是在考虑后续政策是否要有变化。系列报告的内容包含三部分（1）网络数据研究的主要技术与方法（2）可以公开的本次教育政策研究的部分数据与成果（3）目前网络管理中的一些问题和可能有效的解决方法。因为审判官的准确率非常低，大量有问题的评论，尤其是掌握了话术的评论，基本要考审判官去二次申诉才行。

2024-05-01 16:32:21 469

mongo开发指南

中文停用词表 英文停用词表 中英文停用词表

数据科学与人工智能

汉语交叉依存非投射现象

空空如也

中文停用词表英文停用词表中英文停用词表