- 博客(73)
- 收藏
- 关注
原创 YOLOv2原理介绍
特别值得注意的是,YOLOv2还创新性地提出了联合训练策略,能够在检测数据集和分类数据集上同时训练,从而扩展可检测的类别数量至9000多种。与传统的两阶段检测器(如R-CNN系列)不同,YOLOv1将目标检测重新定义为一个回归问题,能够在单次前向传播中同时预测边界框和类别概率,实现了端到端的检测流程。YOLOv1在位置预测方面存在明显缺陷,其直接预测边界框的绝对坐标,导致训练初期不稳定。这种系统性的改进方案确保了YOLOv2在保持实时性的同时,显著提升了检测精度,为后续YOLOv3等版本的发展奠定了基础。
2025-10-20 23:57:32
864
原创 YOLOv1原理介绍
One-Stage方法(以YOLO为代表)优点:识别速度非常快(YOLOv1可达45FPS),适合实时检测任务如视频监控、自动驾驶等缺点:相比Two-Stage方法正确率较低(初期版本mAP约63.4%)典型应用:Tiny YOLO在树莓派等边缘设备上的实时物体检测Two-Stage方法(如Faster R-CNN系列)优点:正确率比较高(Faster R-CNN在VOC2007上mAP约73.2%),识别效果理想缺点:识别速度较慢(通常只能达到5FPS),难以满足实时性要求典型应用。
2025-10-20 23:41:19
542
原创 yolo介绍
人工智能的快速发展推动计算机视觉成为热门研究领域,而目标检测作为其核心任务,经历了从传统方法到深度学习的技术演进。在YOLO诞生前,目标检测算法普遍面临速度瓶颈。R-CNN等主流算法采用复杂的多阶段流程,需要先生成候选区域再进行分类和回归,严重制约了检测效率。2016年,革命性的YOLO算法横空出世,将目标检测转化为回归问题,直接在图像上预测边界框和类别概率,实现了端到端的训练和检测范式。
2025-10-19 23:49:15
869
原创 Python Web框架对比与模型部署
模型部署是指将训练好的机器学习模型运行在专属的计算资源上,使模型在独立的运行环境中高效、可靠地运行,并为业务应用提供推理服务。这一过程的目标是将机器学习模型应用于实际业务中,使最终用户或系统能够利用模型的输出,从而发挥其实际价值。在实际项目中,模型部署不仅仅是技术实现,更是连接数据科学与商业价值的桥梁。根据Gartner的研究,到2025年,75%的企业将把机器学习模型部署到生产环境中,但其中只有15%能够实现预期的商业价值。一个准确率达到99%的模型如果无法稳定地提供服务,其商业价值几乎为零。
2025-10-15 23:59:38
473
6
原创 使用Flask部署PyTorch模型
Flask是一个轻量级的Python Web应用框架,以其著称。它采用Werkzeug WSGI工具包和Jinja2模板引擎作为基础,同时保持核心简单但可扩展的特点。
2025-10-15 23:56:21
767
原创 从RNN到LSTM:深入理解循环神经网络与长短期记忆网络
模型优点缺点适用场景标准RNN结构简单,计算量小梯度消失,难以学习长期依赖简单序列任务LSTM能学习长期依赖,功能强大参数多,训练慢复杂长序列任务GRU参数少,训练快,效果接近LSTM极长序列可能不如LSTM大多数序列任务。
2025-10-14 22:59:33
1136
原创 基于PyTorch的CBOW模型实现
引言:语义表征的革命性演进 自然语言处理(NLP)领域经历了从基于规则到分布式表征的范式转变,其中最具突破性的进展当属语义的连续向量表示。在Word2Vec问世前,传统文本表征方法如TF-IDF和one-hot编码存在显著缺陷:维度困境:向量维度与词汇表规模成正比,处理海量文本时维度可能突破百万级 语义缺失:难以捕获词语间的语义关联(如"国王"与"女王"的性别对应关系) 稀疏性问题:向量中绝大多数元素为零值,导致计算资源浪费。
2025-10-14 22:47:18
536
原创 图像视觉——颜色识别
(Open Source Computer Vision Library)是一个开源的计算机视觉和机器学习软件库,提供了丰富的图像处理和计算机视觉功能。它支持多种编程语言,包括C/C++、Python和Java等,因其高效、灵活和开源的特性,成为业界和学界进行图像处理和视觉应用开发的首选工具。是Google推出的跨平台框架,专注于处理视觉和音频的实时数据流,并提供了一系列预训练的模型和实用工具。特别在手势识别方面,MediaPipe提供了高效的21点手部关键点检测模型,能够实时准确地追踪手部运动。
2025-10-13 23:55:00
911
原创 python--手势识别
引言:手势识别技术的人机交互革命 手势识别技术的重要性不言而喻——它使人类能够以最自然的方式与机器进行交互,无需任何中间设备。从钢铁侠中托尼·斯塔克的全息交互到现实生活中智能手机的 gesture control,手势识别正在重塑我们与数字世界互动的方式。本文将深入探讨基于MediaPipe的手势识别原理,并详细介绍一个实时手势数字识别系统的实现。3.2.1 手掌检测阶段技术细节。3.2.2 关键点检测阶段优化。4.1.1 多角度判断。2.2.1 性能指标。
2025-10-12 23:58:40
1133
原创 基于OpenCV的通过人脸对年龄、性别、表情与疲劳进行检测
在现代计算机视觉应用中,人脸分析技术已成为重要组成部分,广泛应用于安防监控、智能零售、人机交互等多个领域。本文将详细介绍如何利用Python生态中的OpenCV和Dlib库构建一个多功能的实时人脸分析系统。
2025-10-12 19:49:26
533
原创 python——人脸关键点检测
人脸关键点检测作为计算机视觉领域的重要技术,通过精确定位面部特征点(如眼角、嘴角、鼻尖等)为各类人脸分析应用提供基础支持。本文系统介绍如何利用Python的dlib库实现68点人脸关键点检测,涵盖技术原理、代码实现和实际应用场景。模型文件准备: 需下载预训练的shape_predictor_68_face_landmarks.dat模型文件,该文件包含完整的人脸关键点检测模型参数。技术实现原理 dlib的68点检测模型融合了HOG特征提取和回归树算法。
2025-10-10 22:04:30
1713
1
原创 Python人脸检测
dlib是一个跨平台的C++机器学习库,提供Python接口,在图像处理和人脸识别方面表现优异。相比OpenCV的Haar级联分类器,dlib采用HOG(方向梯度直方图)特征结合线性分类器,在准确性和稳定性上都有显著提升。更高的检测精度和更低的误检率支持上采样检测小尺寸人脸开箱即用,无需模型训练高效的CPU运算能力,不依赖GPU。
2025-10-10 21:57:45
453
原创 数字图像处理——图像金字塔
图像金字塔是图像处理中多尺度分析的重要工具,它通过不同分辨率下的图像表示,为我们提供了分析图像特征的多个视角。图像金字塔的本质是一系列以金字塔形状排列的分辨率逐步降低的图像集合,其中最底层是原始图像的最高分辨率版本,随着层级上升,分辨率逐渐降低。上采样的步骤包括:先将图像在每个方向放大为原来的两倍,新增的行和列用0填充,然后使用与降采样相同的高斯核进行卷积操作,获得新增像素的近似值。例如,在人脸检测中,由于图像中的人脸可能具有不同的大小,使用图像金字塔可以在多个尺度上检测人脸,确保不会因为尺度变化而漏检。
2025-09-11 20:00:40
1316
原创 数字图像处理——信用卡识别
信用卡数字识别系统包含两大核心模块:模板数字预处理和信用卡图像识别。系统先处理标准数字模板(0-9),再提取信用卡图像中的数字区域进行匹配识别。识别流程采用多种图像处理技术,包括灰度转换、阈值处理、形态学操作和轮廓检测。通过分析数字形状特征和空间关系,系统能精确定位并识别信用卡数字序列。
2025-09-08 20:52:59
1108
原创 深度学习——残差神经网络案例
在当今人工智能蓬勃发展的时代,图像分类技术已经成为计算机视觉领域的核心基础。从医疗影像分析到自动驾驶车辆,从智能安防到工业质检,图像分类算法正以前所未有的速度改变着我们的生活和工作方式。本文将深入探讨如何使用PyTorch框架和ResNet架构构建一个高效、准确的图像分类系统,为您提供从理论到实践的完整解决方案。
2025-09-07 22:40:26
643
1
原创 深度学习——残差神经网路
残差学习的核心思想可以通过微分方程来理解。假设最优的映射H(x)可以表示为: H(x) = x + F(x) 其中F(x)是我们需要学习的残差函数。这种表示与微分方程中的"扰动理论"有相似之处,将复杂问题分解为容易解决的部分(x)和需要学习的修正项(F(x))。通过以上技术细节的优化,ResNet在保持其核心思想的同时,能够适应各种计算机视觉任务的需求,持续发挥基础模型的重要作用。
2025-09-05 23:31:29
1391
1
原创 深度学习——迁移学习
迁移学习作为深度学习领域的一项革命性技术,正在重塑我们构建和部署AI模型的方式。本文将带您深入探索迁移学习的核心原理、详细实施步骤以及实际应用中的关键技巧,帮助您全面掌握这一强大工具。
2025-09-05 21:51:54
1468
原创 深度学习——学习率调整
在深度学习中,学习率调度器(Learning Rate Scheduler)是优化模型训练过程的重要工具。它通过动态调整学习率,帮助模型在训练初期快速收敛,在后期稳定优化。PyTorch提供的torch.optim.lr_scheduler.StepLR是一种基础但实用的学习率调度策略,特别适合需要对学习率进行周期性调整的场景。数学表达式: 假设初始学习率为lr₀,则在第n个epoch时的学习率为: lrₙ = lr₀ × γ^⌊n/step_size⌋。Q2: 如何实现断点续训?
2025-09-04 21:55:46
1321
原创 深度学习——CNN实例手写数字
第一个卷积块nn.Conv2d(in_channels=1, # 输入通道数,1 表示灰度图像out_channels=8, # 输出通道数,即卷积核的数量kernel_size=5, # 卷积核大小为 5x5stride=1, # 步长为 1padding=2 # 填充为 2,以保持特征图尺寸),nn.ReLU(), # 激活函数 ReLUnn.MaxPool2d(2) # 最大池化,窗口大小为 2x2# 第二个卷积块。
2025-09-03 21:44:52
987
原创 深度学习——卷积神经网络
在当今的数字化时代,图像识别技术已经渗透到我们生活的方方面面,从智能手机的相机功能到自动驾驶汽车的环境感知,都离不开图像识别技术的支持。图像识别技术使得机器能够像人类一样理解和解释视觉信息,从而在众多领域发挥着重要作用。而在众多图像识别技术中,卷积神经网络(Convolutional Neural Networks,简称CNN)以其独特的结构和强大的功能,成为了图像识别领域的核心力量。CNN不仅在学术研究中取得了突破性进展,还在工业界得到了广泛应用,推动了人工智能技术的飞速发展。
2025-09-03 21:35:03
2161
4
原创 机器学习回顾——决策树详解
决策树是一种树形结构的预测模型,其核心思想是通过一系列规则对数据进行递归划分。它模拟人类决策过程,广泛应用于分类和回归任务。
2025-09-02 23:41:55
1795
原创 机器学习回顾——逻辑回归
计算高效:训练和预测都很快概率输出:提供分类不确定性度量强可解释性:参数直接反映特征重要性鲁棒性:对特征相关性和噪声有一定容忍度与其他模型的集成(如随机森林、GBDT)在线学习场景的改进自动化特征工程结合在深度学习中的基础作用逻辑回归不仅是实践中的实用工具,也是理解更复杂模型的重要基础,值得深入学习和掌握。
2025-08-29 23:06:41
1404
原创 机器学习回顾——线性回归
在多元线性回归模型中,因变量 y 与自变量 x₁,x₂,...,xₖ 的关系可表示为:yᵢ 为个体 i 的因变量观测值β₀ 为截距项β₁,...,βₖ 为回归系数xᵢ₁,...,xᵢₖ 为个体 i 的自变量观测值εᵢ 为误差项(随机扰动项)误差项 εᵢ 反映了实际值 yᵢ 与模型预测值 ŷᵢ 之间的差异,体现了模型的不完美性。
2025-08-29 23:02:21
1321
原创 机器学习回顾(二)——KNN算法
全称是k-nearest neighbors,通过寻找k个距离最近的数据,来确定当前数据值的大小或类别。是机器学习中最为简单和经典的一个算法。假设你有一个数据集,其中每个数据点都有若干个特征,并且已知它的类别(如果是分类问题)或者数值(如果是回归问题)。当来了一个(比如欧几里得距离);(K 是你自己设定的一个正整数,比如 K=3、K=5);:采用,哪个类别的邻居最多,新样本就属于哪个类别;:采用,取这 K 个邻居输出值的平均作为预测值。如果我们设定 这就是KNN的直观思想:。
2025-08-28 21:00:24
931
1
原创 深度学习——激活函数
在深度学习中,激活函数(Activation Function) 是神经网络中每个神经元上应用的一个非线性函数,它决定了该神经元是否应该被“激活”,即是否将输入信号传递到下一层。数学表示:如果一个神经元的输入是 z(通常是加权求和加上偏置:z=w⋅x+b),那么经过激活函数 σ后的输出为:激活函数PyTorch类PyTorch函数是否常用适用位置ReLUnn.ReLU()F.relu()✅✅✅隐藏层LeakyReLU✅✅隐藏层(防死亡)
2025-08-27 23:28:20
1345
原创 深度学习——优化函数
在深度学习中,优化函数(Optimization Function)是指用于调整模型参数(如神经网络的权重和偏置),以最小化损失函数(Loss Function)的一类算法或方法。二、常见的优化函数(优化算法) 下面详细介绍几种最常用的深度学习优化算法,它们都是基于梯度下降(Gradient Descent)的思想,但在更新策略上有所不同,以提高训练效率、稳定性和收敛速度。带动量的SGD(Momentum SGD) 为了解决普通SGD更新方向震荡的问题,引入了"动量"的概念,累积之前的梯度信息。
2025-08-27 22:49:38
1859
原创 深度学习——损失函数
不平衡分类:加权交叉熵关键任务:对某些错误施加更大惩罚多任务学习:组合多个损失函数损失函数(Loss Function),也称为成本函数(Cost Function)或误差函数(Error Function),是机器学习中用于量化模型预测值与真实值之间差异程度的数学函数。它是监督学习算法的核心组成部分,直接影响着模型的学习过程和最终性能。不平衡分类:加权交叉熵关键任务:对某些错误施加更大惩罚多任务学习:组合多个损失函数。
2025-08-26 22:29:38
2216
原创 深度学习——模型训练
以Pytorch自带的手写数据集为例。我们已经构建了一个输入层(28*28),两个隐藏层(128和256),一个输出层(10)的人工神经网络。并且结合非线性激活函数sigmoid定义前向传播的方向。现在我们需要对模型进行训练。
2025-08-26 14:54:36
1462
原创 深度学习——神经网路的基本搭建
我们使用经典的MNIST数据集,这是一个广泛用于机器学习入门的手写数字识别基准数据集。训练集:60,000张28×28像素的灰度图像测试集:10,000张同样规格的图像类别:0-9共10个数字类别像素值范围:0-255(黑色到白色)
2025-08-25 19:23:06
1328
原创 深度学习——安装PyTorch
PyTorch 是一个开源的机器学习框架,由 Facebook 的 AI 研究团队(现 Meta AI)开发并维护。它以灵活性、动态计算图和强大的 GPU 加速支持著称,广泛应用于学术研究和工业界的深度学习项目中。
2025-08-25 19:15:50
1009
原创 数据可视化——matplotlib库
对数坐标轴示例# 准备数据y = x ** 2# 创建图形# 常规坐标轴ax1.set_title('线性坐标轴', fontsize=12)# 对数坐标轴ax2.set_yscale('log') # Y轴对数坐标ax2.set_title('对数坐标轴', fontsize=12)ax2.grid(True, alpha=0.3, which='both') # 主次网格线# 添加整体标题fig.suptitle('坐标轴类型对比', fontsize=14, y=1.02)
2025-08-24 22:59:07
1636
原创 数据库的基本操作
MySQL 是当前最流行的开源关系型数据库管理系统之一,广泛应用于 Web 应用程序开发。以下是 MySQL 数据库的详细操作指南,包含文字说明和代码示例。
2025-08-24 21:35:40
1144
1
原创 机器学习案例——预测矿物类型(数据处理部分)
CaaDataProcess 是一个专门用于处理数据集中缺失值的 Python 类,它封装了多种缺失值填充策略,特别适合在机器学习项目中保持训练集和测试集数据处理的一致性。
2025-08-23 21:11:47
1413
原创 深度学习——神经网络
机器学习是人工智能的核心分支,它使计算机系统能够从数据中"学习"并改进性能,而无需显式编程。想象一下教孩子识别动物:不是通过编写详细的规则("猫有尖耳朵、长胡须..."),而是通过展示大量图片让他们自己发现规律——这正是机器学习的基本理念。监督学习:使用标记数据训练模型(如图像分类)无监督学习:发现未标记数据中的模式(如客户细分)强化学习:通过试错和奖励机制学习(如游戏AI)
2025-08-22 22:03:50
1331
原创 机器学习——AdaBoost算法
经验风险最小化是统计学习理论中的核心概念,其基本思想是通过最小化训练集上的误差(经验风险)来学习模型参数。这一原则源于Vapnik和Chervonenkis提出的统计学习理论,为监督学习提供了理论基础。
2025-08-21 21:50:18
1472
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅