泰恒-CSDN博客

原创人工智能毕业设计

接各种机器学习、深度学习、计算机视觉项目设计，可私信。

2026-04-18 15:22:42 316

从2015年实验室的AGI理想，到2022年现象级应用爆发，再到如今多模态、强推理的智能生态，ChatGPT的发展史既是生成式AI的技术演进史，也是AI从实验室走向全民化、产业化的时代缩影。截至2026年，ChatGPT已从单一聊天工具，进化为覆盖生活、工作、科研、产业的全民级智能平台，用户超10亿，API周调用量达数万亿Token。产品极简：聊天框、多轮对话、无广告。模型会显式输出思维链，像人类一样逐步推导、验证、纠错，数学、科学、复杂逻辑能力大幅提升，解决传统模型“快思考、易出错”的问题。

2026-04-14 22:31:52 1562

原创国内外大模型的区别与差距

根据斯坦福《2026年AI指数报告》，中美顶级模型性能差距已缩小至2.7%，国内模型在中文场景、落地成本、应用渗透上实现反超，但在底层原创、通用推理、芯片算力、全球生态上仍存差距。国外模型（GPT-4V、Gemini Advanced）实现端到端多模态原生融合，图像、视频、音频、3D理解深度更强，跨模态推理更自然。国内通义千问VL、文心一言多模态、豆包多模态在OCR、图像描述、视频解析上接近一流，OCR日常场景准确率达85.4%，但在复杂视觉推理、3D生成、具身智能上仍有差距。

2026-04-14 22:29:23 1605

原创模型老是过拟合怎么办？

同时采用数据增强技术，针对图像、文本、表格数据做差异化处理，如图像数据的翻转、裁剪、缩放、亮度调整，文本数据的随机替换、插入、删除，在不增加样本总量的前提下丰富数据多样性，强制模型学习通用特征。也可采用迁移学习，冻结预训练模型的主干网络，仅微调少量顶层参数，利用预训练模型学习到的通用特征，减少自身数据集的训练压力，有效避免过拟合。总之，解决过拟合的核心原则是平衡模型复杂度与数据复杂度，先优化数据、再约束模型、最后调整训练策略，多方法结合使用，就能让模型摆脱对训练数据的过度依赖，实现良好的泛化效果。

2026-04-13 19:28:51 523

原创 YOLO如何通过数据集与标签学习特征并完成模型训练

训练图像需覆盖目标检测场景的多样性，包括目标大小（大目标如汽车、小目标如行人）、姿态（站立、侧卧）、遮挡（部分被遮挡）、光照（强光、弱光、逆光）、背景（室内、室外、复杂场景）等。YOLO的特征学习与模型训练，是以标签为监督、以卷积网络为载体、以损失函数为导向、以反向传播为手段的迭代优化过程：从原始图像像素中，通过浅层网络提取基础特征，深层网络抽象语义特征，通过网格划分匹配标签，通过损失函数量化预测误差，再通过反向传播更新参数，逐步让模型学会识别目标的核心特征。梯度为负，增大参数可降低损失。

2026-04-13 13:55:53 493

原创人工智能简述

比如教AI识别“猫”和“狗”：人工编写规则很难穷尽“猫的特征”（不同品种的猫毛色、脸型不同），但通过机器学习，我们给AI喂10万张标注了“猫/狗”的图片，AI会自动提取猫的耳朵形状、眼睛比例、毛发纹理等特征，形成自己的“识别模型”，之后遇到新图片，就能准确判断是猫还是狗。大语言模型（Large Language Model，LLM）是近年来AI领域最火爆的技术，它是基于深度学习的“万亿级参数语言模型”，通过学习海量的文本数据（书籍、网页、文章等），掌握语言的逻辑、语法和语义。

2026-04-12 20:38:33 808

原创 yolo26

YOLOv26（全称Ultralytics YOLOv26）是Ultralytics公司于2026年初发布的新一代端到端实时目标检测模型，作为YOLO系列的最新迭代，它彻底重构了传统YOLO的推理与训练范式，核心定位是极致轻量化、边缘端友好、多任务统一、部署极简，彻底解决了前代模型在低功耗设备上的速度瓶颈、部署复杂、后处理冗余等痛点，是当前计算机视觉领域兼顾速度、精度与工程实用性的标杆方案。3. 训练创新：跨界融合LLM训练技术，引入新型优化器与损失函数，实现更快收敛、更稳定训练，同时兼顾小目标检测精度。

2026-04-12 20:36:23 658

原创 yolov5与yolov8的区别

它彻底抛弃 Anchor-Based 机制，采用 Anchor-Free 范式，融合了 YOLOX、YOLOv6、RTMDet 等前沿算法的优点，在精度大幅提升的同时保持高速推理，更适配复杂场景、大数据集与多任务联合训练，代表了当前单阶段检测的主流发展方向。YOLOv5 的核心定位是轻量化、工程化、易用性。YOLOv8 使用全新统一框架，支持检测、分割、姿态、分类四大任务，训练命令极简，配置文件 yaml 更简洁，支持 Python API 调用，适合快速搭建 pipeline、多任务联合训练与二次开发。

2026-04-11 20:21:11 654

原创 OCR技术

它打通了“视觉图像”与“数字文本”的壁垒，是文档数字化、信息自动化提取的基础能力，广泛应用于办公、金融、政务、教育、物流等领域。以下从原理、流程、发展、技术、应用、局限与趋势全面讲解。结合GPT-4V、Qwen-VL等多模态大模型，OCR从“识别文字”升级为“理解文本”：自动提取关键信息（如发票金额、身份证号）、理解语义、处理无模板文档、支持复杂表格/公式/混合排版，泛化能力大幅增强。企业级专业处理，价格高。身份证、银行卡、营业执照、发票、保单识别，自动提取金额、日期、编号，实现开户、信贷、理赔自动化。

2026-04-11 20:20:23 906

原创一个月成为机器学习高手计划

接下来3天系统学习机器学习基础理论，厘清监督学习、无监督学习、强化学习的核心区别，理解损失函数、优化器、特征工程、模型评估等基础概念，掌握准确率、精确率、召回率、F1分数等评估指标原理，整理完整理论笔记，搭建知识体系。周一至周三主攻监督学习算法，深入学习线性回归、逻辑回归、决策树、随机森林、K近邻算法，推导算法原理，理解适用场景与优缺点，借助Sklearn库完成各算法的基础建模练习，针对分类、回归两类任务分别实操。周日复盘整个学习周期，总结学习方法与核心知识点，制定后续深度学习拓展计划，巩固学习成果。

2026-04-10 20:42:45 224

原创基于 YOLOv8 实现快递盒实例分割（含代码）

本文介绍了基于YOLOv8实现的快递盒实例分割Python代码。主要内容包括：1）使用ultralytics.YOLO库加载预训练分割模型；2）核心预测函数支持单张图片或批量图片处理，可设置置信度和IOU阈值；3）自动保存带分割标注的结果图，包括分割掩码、边框和类别信息。代码采用模块化设计，包含模型加载、预测处理和结果保存三个主要功能模块，通过异常捕获确保程序稳定性。测试时只需提供模型路径和图片路径即可运行，预测结果会显示检测到的快递盒数量并保存到指定目录。该实现充分利用了YOLOv8官方API的便捷性

2026-04-10 15:16:43 755

原创基于yolov8的工业零件缺陷检测系统

基于yolov8的工业零件缺陷检测系统

2026-04-09 15:44:33 803

原创基于yoloV8安全帽反光衣检测（含代码）

基于yolov8的安全帽反光衣识别

2026-04-09 11:36:27 851

原创计算机体系结构基础

ARM、RISC-V则属于RISC架构，指令简洁、功耗低、面积小，广泛应用于手机、嵌入式设备、开发板（如香橙派系列）以及智能硬件。对于智能小车、嵌入式开发、AI部署等实践方向，理解体系结构能够帮助我们更合理地选择硬件、优化程序、调度资源、提升系统实时性与运行效率。流水线将指令执行分为取指、译码、执行、访存、写回等步骤，多条指令重叠执行，大幅提升吞吐率。计算机体系结构主要研究计算机硬件系统的组织结构、运行机制、指令集设计、存储层次、并行处理等内容，它介于数字逻辑与操作系统之间，是连接软件与硬件的桥梁。

2026-04-08 21:23:24 465

原创计算机视觉基础

CNN通过自动学习图像特征，大幅提升目标识别、检测、分割的精度，衍生出ResNet、YOLO、Transformer等经典模型。• 传统视觉阶段（20世纪60年代-2010年）：依赖人工设计特征，如边缘检测（Sobel、Canny算子）、纹理特征（HOG）、局部特征（SIFT、SURF），算法效率低，泛化能力弱，仅能处理简单场景（如静态图像的目标识别）。• 传统特征：如边缘特征（检测图像中的线条、轮廓）、纹理特征（描述图像表面的粗糙程度）、形状特征（如目标的长宽比、轮廓形状），适用于简单场景。

2026-04-08 21:22:13 694

原创如何学习大模型

近年来，以ChatGPT、文心一言、GPT-4、LLaMA为代表的大语言模型迅速普及，它们能够流畅对话、撰写文章、编写代码、解答专业问题，甚至进行逻辑推理与创作，展现出接近人类的语言理解与生成能力。虽然大模型仍存在幻觉、不可解释、知识滞后等问题，但随着训练技术、数据体系与算力的不断提升，大模型的学习能力将持续突破，成为推动科技进步、产业升级与社会发展的核心力量。本文将系统介绍大模型的学习机制、训练流程、核心技术原理、知识存储方式以及学习过程中的关键特点，完整解释“大模型是如何学习的”这一核心问题。

2026-04-07 09:28:05 644

原创大模型的起源与发展

而大模型（Large Model，多指大语言模型LLM）的出现，无疑是AI发展史上最具颠覆性的里程碑——它打破了传统AI“专用、窄场景、依赖大量标注数据”的局限，以“预训练大模型+少量微调/提示学习”的范式，实现了跨任务、跨领域的通用智能能力，成为推动AI 2.0时代到来的核心引擎。1997年，Hochreiter与Schmidhuber发明长短期记忆网络（LSTM），有效解决了循环神经网络（RNN）的梯度消失问题，让模型能处理长文本序列，成为NLP领域的主流模型。二是支持全并行计算，训练效率大幅提升；

2026-04-07 09:25:50 635

原创 skill

在大模型智能体的体系中，Skill 并不是简单的功能，也不是代码片段，更不是插件的堆砌，而是一套标准化、可复用、可组合、可管理的任务执行单元。它让智能体从“模糊对话”走向“精准执行”，从“随机生成”走向“稳定可靠”，从“单一能力”走向“复杂协作”。Skill 让智能体从“模糊对话”走向“精准执行”，从“随机生成”走向“稳定输出”，从“单一功能”走向“规模化应用”。就像人类拥有“写作技能”“开车技能”“编程技能”“翻译技能”一样，智能体通过加载不同 Skill，获得对应领域的执行能力。

2026-04-06 11:18:05 988

原创 MCP具体指什么

这种“工具碎片化、接口不统一”的问题，严重限制了智能体的能力扩展。理论上，只要工具不断增加，智能体的能力就可以无限扩展，能完成办公、设计、数据分析、工业控制、家庭自动化、教育辅导、医疗辅助等几乎所有场景任务。在大模型智能体的语境下，MCP是一套连接大模型与外部工具的通用上下文协议，它解决了智能体与工具之间接口不统一、适配成本高、安全不可控、任务不连贯的核心问题。MCP的重要能力就是上下文管理，它可以自动记录任务进度、中间结果、用户权限、历史操作，让智能体在多轮工具调用中不会“失忆”，保证任务连贯完成。

2026-04-06 11:16:45 611

原创大模型简单示例

职场中最高频的大模型应用，便是文档处理。面对长篇会议纪要、研究报告、行业白皮书，人工阅读耗时耗力，大模型可快速实现全文摘要、重点提取、观点梳理。例如，将一小时会议录音转写的万字文本输入模型，指令 “提炼会议核心决议、待办事项、责任人与时间节点”，模型可在数秒内输出结构化摘要；针对合同、标书等正式文件，模型还能检查语法错误、优化措辞、标注风险条款，替代传统人工校对工作，效率提升 90% 以上。大模型的出现，标志着人工智能进入通用智能时代。

2026-04-05 14:42:41 661

原创 yolo视觉十大新手项目推荐

检测 + 跟踪（ByteTrack/BotSort）：多类别 + 迁移学习 + 公开数据集。：视频流 + 去重计数 + 区域判断。：环境搭建 + 3 行代码出效果。：单类别检测 + 自定义小数据集。：工业安全场景 + 2 类检测。：自制数据集 + 多类别小目标。：小目标 + 不规则形状检测。：多类别 + 颜色特征判断。：二分类 + 实时推理。

2026-04-05 14:39:48 524

原创计算机视觉如何入门？

本文以零基础可落地、循序渐进、重实战为原则，完整梳理计算机视觉入门路径、知识体系、学习方法、项目实战与就业方向，帮你少走弯路，快速建立系统的CV能力。最重要的一点：别怕报错，别怕效果差。传统CV不依赖神经网络，靠人工设计特征，虽然现在工业界主流用深度学习，但传统算法是理解CV逻辑的关键，也能独立完成简单项目。学习意义：理解“计算机如何看图像”，为深度学习打下直观认知，同时能独立做简单项目，如硬币计数、形状识别、二维码定位。其中YOLO最重要，入门实战必用，简单、快速、开箱即用，适合做安防、检测类项目。

2026-04-04 13:27:01 903

原创 openclaw近期怎么样了？

用户从极客扩散至职场人、学生、中小企业、垂直行业从业者，应用覆盖办公自动化、开发运维、内容创作、电商、法律、IoT等40+场景。解决早期“指令失控、消息重复、跨平台崩溃”问题。• 技能系统插件化：SkillHub标准化，技能分为Web开发、编程、DevOps、AI工具、办公、营销等30+大类、5000+技能，支持一键安装、版本管理、安全扫描。• 跨通道网关：统一适配微信、QQ、Discord、Telegram、Slack、Teams、Web、桌面端，一处配置、全平台生效，消息同步、状态一致。

2026-04-04 13:24:44 1518

原创代码老是报错的原因竟然是这个？

库版本不兼容本质上是项目所依赖的多个外部软件包之间，在接口、逻辑、依赖关系、底层实现上存在版本冲突、版本过旧、版本过新或依赖链断裂，导致程序在执行时无法按照预期调用功能，最终抛出异常甚至直接崩溃。所谓版本不兼容，就是当前环境中安装的库版本，与代码编写时所依据的版本不一致，或多个库之间互相要求的版本无法同时满足，导致程序运行时找不到对应的函数、传入的参数不被接受、底层逻辑行为改变，最终触发运行错误。本地、服务器、开发板使用相同系统、相同Python版本、相同库版本，避免“本地能跑，部署报错”。

2026-04-03 08:50:09 461

原创为什么API调用失败？

例如大模型API的标准URL格式为https://api.example.com/v1/chat/completions，其中v1是版本号，chat/completions是接口路径，若遗漏版本号、写错版本号（如v2写成v3），或路径拼写错误，服务端会无法匹配对应的接口资源，返回“404接口不存在”错误。定期检查密钥状态、模型可用性；若模型名称缺失、填写错误，或指定模型不可用，服务端无法找到对应的处理资源，即便URL、API密钥完全正确，也会返回“模型不存在”“模型不可用”等错误，导致调用失败。

2026-04-03 08:46:13 858

原创 QKV简单叙述

多头自注意力将输入特征维度D拆分为h个独立的子维度D_k=D_v=D/h，为每个子维度分别构建一组QKV矩阵，得到h组独立的Q、K、V矩阵，每组完成一次单头自注意力计算，最后将h个头的输出拼接整合。而QKV矩阵，正是将“为每个元素生成Q、K、V向量”的过程，通过线性变换标准化、批量实现的工具——输入序列的特征矩阵通过三个不同的可学习权重矩阵，分别映射为Q、K、V三个矩阵，让所有元素的Q、K、V向量能一次性计算完成，这也是“矩阵”命名的由来（单个元素的Q/K/V是向量，所有元素的Q/K/V组合为矩阵）。

2026-04-02 17:41:19 420

原创我的项目复盘，以及踩过的雷点

本次智慧工程安全系统项目开发，是一次从“功能设计”到“工程实现”的完整实践，项目围绕工程现场的安全管理需求，实现了工人检测、零件缺陷检测、安全智慧助手三大核心功能，但在开发过程中因技术细节把控、资源管理、环境适配、代码规范等方面的疏漏，出现了一系列值得深度复盘的雷点。后续，我们将以本次项目的经验教训为基础，优化后续同类项目的开发流程，强化开发前的调研、开发中的细节把控、开发后的测试与优化，同时结合工程现场的实际需求，持续迭代优化本系统的功能与性能，让系统真正服务于工程现场的安全管理，发挥智能化手段的价值。

2026-04-02 16:40:23 613

原创 CANN与CUDA的区别

历经18年迭代（截至2025年已至12.x版本），CUDA构建了覆盖从边缘设备（Jetson系列）到数据中心（H100/A100）的完整生态，成为全球AI、高性能计算（HPC）领域的事实标准，全球开发者数量突破400万。随着CANN开源，开发者可通过TBE框架自定义算子，满足特殊场景需求。工具链方面，CANN提供ATC（模型转换工具）、Ascend-Debug（调试工具）、Profiling（性能分析工具）等，支持从模型转换到部署优化的全流程，但工具链的完整性与易用性仍在持续迭代。

2026-04-01 09:36:20 1501

原创学习神经网络

但受限于当时的算力和数据，神经网络研究经历了多次低谷，直到21世纪后，随着大数据、高性能GPU算力的普及以及算法的优化，深度学习（深层神经网络）迎来爆发式发展，在AlphaGo、ChatGPT等标志性产品中展现出强大能力，成为人工智能领域最具活力的研究方向。3. 输出层（Output Layer）：神经网络的最后一层，负责输出最终的计算结果，神经元数量由任务类型决定：二分类任务输出1个神经元，多分类任务输出与类别数相等的神经元，回归任务输出1个连续值。

2026-04-01 09:34:10 786

原创如何去学习大模型？

大模型不是 “玄学”，而是数学基础 + 工程实践 + 项目积累的结合体。“打基础→学核心→做项目→强工程”。

2026-03-31 09:34:11 519

原创大模型与智能体有什么不同之处？

大模型是基于 Transformer 架构，通过海量多模态数据（文本、图像、代码等）预训练形成的基础模型，核心是被动响应的模式识别与生成工具。它不具备自主目标和行动能力，仅在收到输入指令时，通过预测下一个 Token 生成输出，本质是一个静态的知识容器。核心特征能力核心：自然语言理解、生成、逻辑推理、跨领域知识迁移，支持多模态处理（文本、图像、音频、视频）；输入→处理→输出的开环流程，无长期记忆、无自主决策，需人工提示工程触发；

2026-03-31 09:31:46 846

原创大模型部署到本地教程

云端大模型（如在线 ChatGPT）：你的问题 → 发到别人服务器 → 计算 → 返回结果。本地部署大模型：模型文件存在你的电脑 / 设备里 → 直接在本地计算 → 直接出结果。整个过程不需要外网、不需要充值、不会泄露数据，完全由你控制。选一个小模型、量化版用简单工具（Ollama / WebUI）一键启动通过 API 接入你的项目不需要复杂环境、不需要训模型、不需要高深数学。只要你会打开终端、会复制命令，就能在 10～30 分钟内跑通一个完全属于你自己的本地大模型。

2026-03-30 18:12:00 1845

原创简单智能体搭建

简单来说，就是给大模型装上“逻辑大脑”，让它不再只会聊天，而是能根据不同条件做不同事，比如自动分析数据、生成报告、处理告警、回答专业问题。智能体的核心不是技术堆砌，而是解决实际问题，先完成基础搭建，再逐步优化功能，就是最稳妥的路径。本篇指南以低代码平台搭建智能体为核心，从基础逻辑、流程设计、节点配置、提示词编写到测试上线，全程用通俗语言讲解，一步步带你完成一个可落地的实用智能体。流程是智能体的“骨架”，低代码平台中通过连线节点实现，常用节点包括：开始节点、条件分支节点、大模型（LLM）节点、直接回复节点。

2026-03-30 18:07:44 1122

原创智能体为什么这么火？

ChatGPT让AI“听懂人话、说人话”，而智能体让AI“会思考、能办事、可协作”——它不再是被动响应的对话工具，而是能自主定目标、拆任务、选工具、做执行、复盘优化的“数字同事”，成为继大模型之后，人工智能领域又一次颠覆性的范式革命。智能体的火爆，首先源于技术层面的系统性突破——大模型的成熟为智能体提供了“聪明大脑”，工具调用、记忆机制、多智能体协同、自主规划等核心技术的成熟，让AI从“生成式”走向“自主式”，实现了从“能说”到“会做”的本质跨越。未来已来，智能体之火，已点燃通用人工智能的革命浪潮。

2026-03-29 15:17:08 626

原创大模型为什么这么火？

2024-2026年，大模型从文本走向多模态，从云端走向端侧，从通用走向垂直，渗透到生产、生活、科研、教育等每一个角落，成为继互联网、移动互联网之后，又一次改变世界的技术革命。当模型规模达到临界值，会涌现出小模型不具备的高级能力：上下文学习（看几个示例就能学会新任务，无需微调）、指令遵循（理解并执行复杂自然语言指令）、复杂推理（数学证明、逻辑推导、科学计算，如O1模型在IMO资格考试中答对83%题目，跻身美国顶尖水平）、跨领域迁移（从文本到代码、从文学到科学，无需重新训练即可适配）。

2026-03-29 15:12:43 813

原创 Docker是什么？有什么用？

接着，通过镜像创建独立的Docker容器；每个微服务可打包为独立容器，独立部署、隔离运行，服务之间互不干扰，可单独扩容、更新、删除，配合K8s等容器编排工具，可实现微服务的自动化管理、弹性扩容、负载均衡，轻松应对高并发、大流量场景，是微服务架构的最佳部署载体，目前互联网企业的微服务体系几乎均基于Docker构建。它负责接收客户端指令，调用底层Linux内核技术，完成镜像的拉取、构建，容器的创建、启动、停止、删除，以及网络、存储的管理等操作，是Docker架构的核心支撑，保障Docker各项功能的正常运行。

2026-03-28 08:51:37 866

原创 Ollama是什么？有什么用？

具体来说，Ollama会自动完成模型的量化处理，将大模型的参数精度降低，大幅减少对算力和内存的消耗，让消费级电脑也能流畅运行7B、13B甚至更大参数的大模型；Ollama最大的优势就是极低的使用门槛，它摒弃了专业技术工具的复杂界面，采用极简的操作逻辑，无论是Windows、macOS还是Linux系统，用户只需完成基础安装，无需编写任何代码、无需了解AI技术知识，就能通过简单的指令或可视化界面，完成模型的下载、运行、切换和管理，即使是小学生、中老年用户，也能快速上手，彻底打破了大模型的技术垄断。

2026-03-28 08:45:01 1051

空空如也

空空如也