彩旗工作室的博客

聚焦电子设计、数学建模、软件开发、人工智能和虚拟现实的工作室。

人工智能

关注

文章平均质量分 91

关注数：文章数：20 文章阅读量：47255 文章收藏量：281

作者: 彩旗工作室

聚焦电子设计、数学建模、软件开发、人工智能和虚拟现实的工作室。联系邮箱：developer@skstudio.cn

展开

专栏收录文章

腾讯云上调用大模型的全部入口整理（2026最新版）

腾讯云提供多样化大模型调用方案，覆盖从API直调到私有化部署全场景。主要入口包括：混元原生API（支持文本/多模态）、OpenAI兼容接口（适配DeepSeek模型）、智能体开发平台（低代码RAG构建）、TI平台（模型训练与私有化）、HAI（GPU算力服务）及云应用一键部署。不同方案对应不同技术门槛和业务需求，如混元API适合轻量调用，TI平台满足企业级定制需求。新用户可享百万Token免费额度，具体模型和价格以控制台为准。开发者可根据实际需求选择最优接入路径。

原创 2026-03-26 21:59:36 · 3367 阅读 · 0 评论
从 Manus 到 Meta：AI Agent 进入产业级竞争后，开源世界还能怎么选？

2025年3月，通用AI Agent产品Manus发布，凭借任务拆解与执行能力引发关注。同年Meta收购Manus，标志着AI Agent进入产业化阶段，但也暴露了闭源产品的局限性。文章聚焦开源替代方案，首先定义了Manus类AI Agent的五大特征，包括任务导向和多步骤执行能力。重点推荐了基础设施层的LangChain/LangGraph，以及AutoGPT、MetaGPT等对标项目，并介绍了Dify等产品化方案和AgenticSeek等隐私导向项目。

原创 2026-01-03 17:32:25 · 1230 阅读 · 0 评论
国内外主流大模型API接口调用完整指南

本文全面梳理了国内外主流大语言模型的API调用方式，包括OpenAI、Anthropic、Google等国际厂商，以及阿里、百度、腾讯等国内厂商。详细列出了各模型的API端点URL、官方SDK支持、认证方式和特色功能，涵盖文本生成、多模态处理、代码生成等场景。提供了Python调用示例和模型选择建议，比较了各模型的性能与价格差异。最后给出开发建议，包括SDK选择、成本优化、安全注意事项和性能优化策略，帮助开发者根据需求选择合适的大模型API。

原创 2025-12-03 17:59:49 · 6581 阅读 · 0 评论
中国视觉大模型API服务全景介绍

中国视觉大模型API服务生态概览中国视觉大模型已形成多元化发展格局，主要呈现以下特点：主流厂商布局：阿里通义千问VL、百度文心、讯飞星火、腾讯混元等提供开源与闭源双轨服务技术突破：Qwen3-VL在DocVQA评测中超越GPT-4V，国产模型性能显著提升服务模式：包含官方API平台（DashScope、千帆）和聚合平台（硅基流动）应用场景：覆盖图像理解、视频分析、OCR识别等多领域调用方式：支持标准化SDK、OpenAI兼容接口，提供免费试用额度典型API调用成本较2024年下降30%-75%

原创 2025-10-16 15:45:50 · 2509 阅读 · 0 评论
腾讯混元3D系列开源模型：从工业级到移动端的本地部署

涵盖工业级到移动端的9款3D生成模型，包括基础生成、垂直领域和轻量化版本。工业级模型如Hunyuan3D-1.0支持高精度建模，而轻量化版本如Hunyuan3D-2mini适配移动端实时生成。部署指南详细介绍了macOS和Android环境下的配置及代码实现，帮助开发者快速应用。该系列为影视、游戏、AR/VR等场景提供全链路解决方案，未来将持续扩展应用边界。

原创 2025-08-19 11:31:01 · 4061 阅读 · 0 评论
移动端设备本地部署大语言模型（LLM）

随着隐私保护和低延迟需求增长，移动端本地离线部署大语言模型（LLM）成为智能助手和虚拟陪伴应用的重要方向。尽管设备计算和内存有限，通过模型量化、轻量化推理框架（如llama.cpp、cactus、mllm）和多模态技术，Android和iOS平台已实现多款开源本地推理项目，支持文本及部分视觉输入。相比之下，鸿蒙生态尚无成熟开源大模型离线方案，但具备AI框架MindSpore和离线语音组件。未来，随着硬件性能和国产AI项目发展，移动端多模态本地大模型部署将更普及，助力更智能、隐私安全的应用体验。

原创 2025-07-13 19:05:03 · 2025 阅读 · 0 评论
MobileNetV3网络原理与实现详解（含项目源代码）

本文介绍基于MindSpore实现的MobileNetV3网络在电子垃圾识别系统中的应用。阐述了Hard Swish激活函数、SE注意力模块和倒置残差块等核心组件的实现原理，分析了Small与Large版本的架构差异。详细说明了权重初始化策略、通道数优化等实现细节，以及在电子垃圾分类中的训练策略、早停机制和并行处理优化。性能分析显示，MobileNetV3-Small在保证92%准确率的同时，具有小体积、低计算量和快速推理速度的优势，适合资源受限环境部署。

原创 2025-03-16 12:17:26 · 2118 阅读 · 0 评论
MobileNet家族：从v1到v4的架构演进与发展历程

MobileNet 是一个为移动和嵌入式设备设计的轻量化卷积神经网络家族，从 v1（2017）到 v4（2024）不断演进。v1 引入深度可分离卷积，显著提升效率。v2（2018）采用倒置残差和线性瓶颈，进一步优化性能。v3（2019）通过神经架构搜索和 h-swish 激活，提供 Large 和 Small 变体，适配不同场景。v4（2024）引入通用倒置瓶颈和移动优化注意力机制，针对多硬件优化，强调通用性。各版本在效率与准确性间持续改进，广泛应用于实时视觉任务，未来有望进一步支持边缘计算需求。

原创 2025-03-15 12:56:03 · 3271 阅读 · 0 评论
过拟合：机器学习中的“死记硬背”陷阱

过拟合是机器学习中常见问题，指模型在训练数据上表现极佳，但在新数据上表现显著下降的现象。其核心原因是模型复杂度过高、训练数据不足或噪声过多。过拟合的表现包括训练集准确率高而测试集准确率低。解决方法包括增加数据、降低模型复杂度、正则化、交叉验证、早停法和特征工程等。通过平衡模型复杂度和数据质量，可以有效提升模型的泛化能力，避免过拟合。

原创 2025-03-14 10:43:10 · 1387 阅读 · 0 评论
卷积神经网络（CNN）的主要架构

卷积神经网络（CNN）不断演进，以提升深度、计算效率和适应性。早期架构奠定基础，随后引入更深层次网络、残差连接和轻量化设计，以提高性能并减少计算成本。近年来，研究重点转向自动优化 CNN 结构，如 EfficientNet 和 RegNet，以及结合 Transformer 设计优化 CNN，如 ConvNeXt。尽管 Transformer 逐渐崛起，CNN 仍在计算机视觉任务中占据重要地位，并持续优化以适应不同应用场景。

原创 2025-03-13 23:57:26 · 3474 阅读 · 0 评论
Transformer模型详解

Transformer 是基于自注意力机制的模型，采用编码器-解码器结构，能够高效处理长序列任务。其核心包括多头注意力、前馈神经网络和位置编码，广泛应用于自然语言处理和计算机视觉等领域。随着优化方法的发展，Transformer 在多模态任务和高效计算方面仍具潜力。

原创 2025-03-13 20:37:21 · 1202 阅读 · 0 评论
支持向量机（SVM）算法详解

支持向量机（SVM）是一种基于统计学习理论的经典机器学习算法，由Vapnik等人于20世纪90年代提出。其核心思想是通过最大化分类间隔来构建最优超平面，从而实现高效分类。SVM通过核技巧将线性不可分的数据映射到高维空间，使其线性可分，常用核函数包括线性核、高斯核和多项式核。SVM的实现流程包括数据预处理、核函数选择、参数调优、模型训练与评估。其优点在于高维数据处理能力强、泛化性能优异，但计算复杂度较高，参数调优依赖经验。SVM广泛应用于文本分类、图像识别、生物信息学等领域，是解决复杂模式识别问题的重要工具。

原创 2025-03-13 12:10:18 · 1417 阅读 · 0 评论
XGBoost算法深度解析：从原理到实践

XGBoost是一种高效的梯度提升决策树算法，通过迭代集成CART树修正预测误差。其创新包括：1）引入正则化项防止过拟合；2）二阶泰勒展开加速收敛；3）基于增益最大化分裂节点，支持自动处理缺失值。XGBoost通过特征预排序与并行化提升效率，适用于金融风控、生物信息学等场景。与GBDT相比，XGBoost在精度与效率间取得平衡，成为结构化数据建模的黄金标准。衍生技术（如XGBoost-LSS）正不断拓展应用边界。

原创 2025-03-13 11:54:27 · 2331 阅读 · 0 评论
MindSpore：华为全场景AI框架的技术全景与生态实践

MindSpore是华为开源的全场景AI框架，支持端边云协同部署，通过自动并行技术实现千亿参数模型训练，通信效率提升40%，并集成联邦学习工具链，降低数据泄露风险90%。其动静图统一编程特性支持动态调试与静态高效执行，深度集成昇腾芯片，通过图算融合、量化压缩实现推理延迟<200ms。覆盖计算机视觉、自然语言处理、科学计算等场景，提供300+预训练模型及MindX SDK，实现5W低功耗边缘部署。开源社区汇聚超10万开发者，形成全栈工具生态。

原创 2025-03-12 23:06:57 · 2530 阅读 · 0 评论
GBDT及其主流优化框架详解

GBDT（梯度提升决策树）是一种通过迭代拟合残差构建强预测模型的集成学习算法，其主流优化框架包括XGBoost、LightGBM和CatBoost。XGBoost通过正则化和二阶导数加速提升精度与效率，LightGBM利用直方图分箱和GOSS采样实现高效训练，CatBoost则擅长自动处理类别特征。LightGBM适合超大数据，XGBoost稳健通用，CatBoost专长于多类别特征任务。这些框架显著提升了GBDT的性能，使其在工业界广泛应用。

原创 2025-03-12 22:55:25 · 1156 阅读 · 0 评论
LightGBM算法核心原理与技术特性深度解析

LightGBM是微软于2017年提出的高效梯度提升框架，专为大规模数据和高维特征设计。其核心创新包括直方图算法、Leaf-wise生长策略、单边梯度采样（GOSS）和互斥特征捆绑（EFB），显著提升训练速度并降低内存消耗。直方图算法离散化特征，Leaf-wise优先分裂增益最大节点，GOSS保留高梯度样本，EFB捆绑互斥特征，使计算复杂度大幅降低。相比XGBoost，LightGBM在处理大规模数据时速度提升10倍，内存消耗减少至1/3，广泛应用于金融风控、推荐系统和医疗建模等领域。

原创 2025-03-12 22:44:42 · 1824 阅读 · 0 评论
卷积神经网络（CNN）详解：从原理到应用的全景解析

卷积神经网络（CNN）是深度学习里处理图像、视频等网格数据的强大模型，通过局部连接、权重共享与层级特征提取，实现自动化特征学习。卷积层提取局部特征，池化层降维并增强平移不变性，全连接层用于分类或回归。其数学本质为线性时不变系统，卷积操作经滤波器加权求和提取特征。CNN广泛应用于图像分类、目标检测、医学影像分析等领域，近年轻量化设计、多模态融合与自动化架构搜索成为研究热点。

原创 2025-03-12 22:23:38 · 2277 阅读 · 0 评论
神经网络：定义与核心原理

神经网络是一种受生物神经系统启发的计算模型，通过模拟神经元间的连接与信息传递机制，实现复杂的数据处理和模式识别。其核心特征包括非线性、自适应性、鲁棒性和全局信息处理能力。神经网络的历史从1943年的MP模型到21世纪的深度学习革命，经历了多次突破。主要类型包括前馈神经网络（如MLP、CNN）、反馈神经网络（如RNN、LSTM）、自组织网络、生成对抗网络（GAN）等。神经网络广泛应用于计算机视觉、自然语言处理、医疗诊断等领域，但也面临数据依赖性强、可解释性差等挑战。

原创 2025-03-12 22:11:49 · 1405 阅读 · 0 评论
计算机视觉研究领域的详细调查报告

计算机视觉研究领域包括图像和视频分析（如对象识别、场景理解）、生成技术（如图像合成、超分辨率）、3D视觉（如3D重建、深度估计）、机器学习（如深度学习、GANs）、应用（如机器人、医疗、安防）、伦理AI（如偏见检测、隐私保护）、实时处理（如边缘计算）、不利条件视觉（如低光校正）和多模态视觉（如视语言融合）。2025年，伦理和生成AI备受关注，反映技术对社会的影响。支持来源包括OpenCV、Amazon Science和Papers with Code。

原创 2025-03-12 22:03:06 · 873 阅读 · 0 评论
人工智能领域的全面分析

人工智能（AI）涵盖多个子领域，推动技术与行业变革。本文介绍AI六大领域：机器学习（ML）专注数据预测；自然语言处理（NLP）实现语言理解；计算机视觉（CV）赋予视觉能力；机器人技术结合AI与工程自动化；知识表示与推理研究知识决策；规划关注目标策略。各领域含子领域与应用，如深度学习、自动驾驶等。研究基于学术与行业来源，反映分类多样性。新兴趋势如生成式AI、边缘AI扩展传统领域。AI持续创新，影响医疗、金融等行业。本文提供全面视角。

原创 2025-03-12 21:54:47 · 2219 阅读 · 0 评论