- 博客(295)
- 资源 (3)
- 收藏
- 关注
原创 PyTorch深度学习实战(18)——目标检测
目标检测是计算机视觉领域中的重要任务,它旨在从图像或视频中准确地定位和识别出感兴趣的目标物体,目标是将输入图像中的目标区域框出,并为每个目标提供正确的类别标签,在许多应用领域都有广泛的应用,包括智能监控、自动驾驶、人脸识别等。在本节中,介绍了如何利用 ybat 准备训练数据集、使用 SelectiveSearch 库实现区域提议算法、对模型的预测执行非极大值抑制以及衡量模型性能。
2023-09-29 06:16:19
956
27
原创 PyTorch深度学习实战——模型训练实用技巧
本节中,我们介绍在实际构建模型时影响模型性能的因素,包括数据质量(处理不平衡数据)、数据预处理(对象大小)、模型选择、超参数优化和正则化等,了解这些因素能够帮助我们更好地训练和优化机器学习模型。
2023-09-27 07:39:37
269
35
原创 PyTorch深度学习实战——交通标志识别
交通标志识别可以检测并识别当前行驶道路上的交通标志,然后得出有关道路的必要信息。但交通标志会受到车辆的运动状态、光照以及遮挡等环境因素的影响,因此如何使车辆在道路交通中快速准确地帮助驾驶员识别交通标志已经成为智能交通领域的热点问题之一。鉴于交通标志识别在自动驾驶等应用中具有重要作用,在节中,我们将学习使用卷积神经网络实现交通标志识别。
2023-09-25 08:08:00
380
21
原创 PyTorch深度学习实战(17)——多任务学习
多任务学习可以同时处理和学习多个相关任务,在实践中,通过在多个任务上进行联合训练,模型可以学习到更通用的特征表示,从而改善每个任务的性能,这种共享知识的方式可以减少对大量任务特定数据的需求,使得训练更加高效,同时任务之间的相互促进和共享知识可以帮助模型更好地理解数据的内在结构和模式。
2023-09-20 07:37:41
338
45
原创 PyTorch深度学习实战(16)——面部关键点检测
面部关键点的定位通常是许多面部分析方法和算法中的关键步骤。在本节中,我们介绍了如何通过训练卷积神经网络来检测面部的关键点,首先通过预训练模型提取特征,然后利用微调模型预测图像中人物的面部关键点,并利用 face_alignment 库来获取图像中人物面部的 2D 和 3D 关键点。
2023-09-18 07:56:30
283
34
原创 PyTorch深度学习实战——基于ResNet模型实现猫狗分类
ResNet 是一种深度卷积神经网络架构,通过引入残差块和跳跃连接来解决深层网络训练过程中的梯度消失和模型退化问题。它的设计使得网络可以轻松地学习更深层次的特征表示,并在计算机视觉任务中取得了显著的性能提升。本节中,将介绍 ResNet 的基本原理,并使用预训练的 ResNet 模型实现猫狗分类。
2023-09-17 10:13:27
225
18
原创 OpenCV实战(32)——使用SVM和定向梯度直方图执行目标检测
本节中,我们将介绍机器学习方法支持向量机 (Support Vector Machine, SVM),它可以根据训练数据得到准确的二分类分类器,它已被广泛用于解决许多计算机视觉问题。该分类器可以通过使用数学公式表达,该公式可以用于在高维空间中查看数据集的几何结构。此外,我们还将介绍一种新的图像表示,该表示通常与 SVM 结合使用以获取鲁棒性对象检测器。
2023-09-14 07:57:02
941
48
原创 PyTorch深度学习实战(15)——迁移学习
迁移学习通过利用相关任务或领域的知识,帮助解决新任务或领域中的学习挑战,可以提高模型的泛化能力、加速模型训练,并在实际应用中取得良好的效果。在图像分类、目标检测、机器翻译等任务中,迁移学习已经展现出巨大的应用价值。在本节中,介绍了迁移学习的基本概念,并使用 PyTorch 构建了迁移学习模型,利用预训练模型 VGG 加速学习过程并提高性能。
2023-09-11 07:56:21
1639
101
原创 PyTorch深度学习实战(14)——类激活图
类激活图 (Class Activation Map, CAM) 是一种可视化技术,用于解释深度学习模型在图像分类任务中的决策过程。它能够显示出对于分类结果影响最显著的图像区域,从而提供对模型决策的可解释性。通过观察类激活图,可以理解模型在分类决策中注重的区域和特征,这有助于我们分析和解释模型的决策依据,以及验证模型是否关注了正确的特征。本节中,将介绍类激活图的基本概念,并使用训练好的模型生成图像的类激活图。
2023-09-07 07:40:20
1098
110
原创 OpenCV实战(31)——基于级联Haar特征的目标检测
对于大多数机器学习方法,训练是一个迭代过程,在此过程中通过循环遍历样本来构建机器学习模型。通过使用更多的样本,得到的分类器性能会逐渐提高。当模型性能达到预设值或者当无法从当前训练数据集中获得更多改进时,学习过程将停止。本节中,我们将介绍一种遵循以上过程的机器学习算法,即级联分类器。
2023-09-04 07:34:29
1367
75
原创 PyTorch深度学习实战——猫狗分类
在本节中,我们使用真实世界的自定义数据集训练卷积神经网络,对包含猫或狗的图像进行分类。同时,我们还将了解当用于训练的图像数量变化时,模型的准确率如何变化。
2023-09-03 09:37:05
425
30
原创 OpenCV实战(30)——OpenCV与机器学习的碰撞
随着人工智能的发展,许多机器学习算法开始用于解决机器视觉问题。机器学习是一个广泛的研究领域,包含许多重要的概念,本节我们将介绍一些主要的机器学习技术,并介绍如何使用 OpenCV 在计算机视觉系统中应用这些技术。
2023-08-31 07:53:07
3252
90
原创 AIGC - 生成模型简介
生成式人工智能是一种人工智能方法,旨在通过学习训练数据的分布模型来生成新的、原创的数据。人工智能生成内容 (Artificial Intelligence Generated Content, AIGC) 是生成式人工智能的一个具体应用和实现方式,是指利用人工智能技术生成各种形式的内容,如文字、图像、音频和视频等。本节将介绍生成模型基本概念,首先介绍生成模型的基本概念,然后,构建用于衡量生成模型性能的框架,并介绍一些重要的核心概念。然后,介绍当前主流的生成模型技术及其分类。
2023-08-29 07:40:16
11607
116
原创 PyTorch深度学习实战(13)——可视化神经网络中间层输出
通过可视化特征学习的结果,我们可以以直观的方式观察网络在处理数据时发生的变化,利用可视化方法能够探索中间层的输出,理解网络如何对输入数据进行编码和转换。我们可以通过观察特征图、梯度分布、降维可视化等手段来揭示网络中学到的有用模式、边缘检测、颜色分布等。在本节中,我们将探索神经网络究竟学到了什么,使用卷积神经网络 (Convolutional Neural Networks, CNN) 对包含 X 和 O 图像的数据集进行分类,并检查网络层输出了解激活结果。
2023-08-24 12:52:40
1693
103
原创 PyTorch深度学习实战(12)——数据增强
数据增强是指通过对原始数据进行一系列变换和处理,生成更多、更丰富的训练样本的技术方法。数据增强在机器学习和深度学习领域中被广泛应用,它可以有效地解决数据不足的问题,提高模型的泛化能力和鲁棒性。我们已经了解了卷积神经网络 (Convolutional Neural Network, CNN) 有助于解决图像平移问题,但如果平移的范围过大同样可能影响模型的性能。在本节中,我们将学习如何使用数据增强确保模型能够得到正确的预测结果,即使图像移动较大范围。
2023-08-21 14:57:22
1141
97
原创 PyTorch深度学习实战——使用卷积神经网络执行图像分类
卷积神经网络 (Convolutional Neural Network, CNN) 的关键思想是通过卷积操作来提取输入数据中的特征,并使用池化操作进行降采样,以逐渐减少参数数量,从而减少计算量并提高模型的效率。在本节中,将介绍 CNN 在图像平移后如何解决错误预测的问题。
2023-08-17 07:44:24
1192
103
原创 PyTorch深度学习实战(11)——卷积神经网络
卷积神经网络 (Convolutional Neural Network, CNN) 是一种广泛应用的深度学习模型。通过参数共享、局部感知和空间结构等优势,能够更好地处理图像数据,并在图像识别、目标检测和图像生成等任务中展现出强大的能力。在本节中,介绍了卷积的计算方法以及卷积神经网络的基本组件,并使用 PyTorch 构建了卷积神经网络以深入了解其工作原理。
2023-08-14 07:09:05
3931
122
原创 OpenCV实战(29)——视频对象追踪
视频对象追踪是在视频中随着时间的推移定位移动对象的过程,在智能安防等领域有着重要用途,本节介绍一些在 OpenCV 库中实现的对象跟踪算法,并实现了一个通用的对象追踪框架。
2023-08-10 07:13:23
2023
76
原创 PyTorch深度学习实战(10)——过拟合及其解决方法
过拟合是指机器学习模型在训练集上表现很好,但在测试集或未见过的数据上表现较差的现象。过拟合是由于模型在训练过程中过度拟合了训练数据的特点和噪声,导致了对训练样本的过度依赖和泛化能力不足。为了解决过拟合问题,选择适当的方法需要对具体问题和数据进行分析,并在模型构建和调优过程中进行实验和验证。在实践中,通常需要权衡模型的复杂度和泛化能力,以获得更好的结果。
2023-08-08 07:10:13
555
80
原创 PyTorch深度学习实战(9)——学习率优化
学习率( learning rate )是神经网络训练中一个重要的超参数,用于控制模型更新参数的步长大小,它决定了每次迭代中模型参数更新的幅度。学习率的选择对于训练的结果具有重要影响,学习率过高会导致模型震荡不收敛甚至发散,无法有效优化目标函数;而学习率过低则会导致收敛速度缓慢,需要更多的迭代才能达到较好的效果。本节首先介绍学习率如何影响模型训练,并通过修改学习率观察不同学习率对模型性能的影响。
2023-08-06 07:49:50
954
101
原创 PyTorch深度学习实战(8)——批归一化
批归一化( Batch Normalization )是一种常用的神经网络优化技术,用于在神经网络的训练过程中对每批输入进行归一化操作。它的主要目的是缓解梯度消失或梯度爆炸的问题,并且加速模型的收敛。在本节中,首先介绍批归一化的基本原理,然后通过实验观察其在网络训练过程中的重要作用。
2023-08-02 07:16:17
1245
111
原创 PyTorch深度学习实战(7)——批大小对神经网络训练的影响
在神经网络中,批( batch )是指一次输入网络进行训练或推断的一组样本。批处理( batch processing )是指将这一组样本同时输入网络进行计算的操作。本节中首先介绍批( Batch )的基本概念,并且介绍批大小在神经网络训练过程中的影响。
2023-07-31 07:18:28
2656
57
原创 PyTorch深度学习实战(6)——神经网络性能优化技术
神经网络性能优化技术是指通过改进神经网络的结构、参数初始化、正则化和训练过程等方面来提高其性能和泛化能力的方法。优化技术的选择和调试需要根据具体问题进行,通过不断实验和调整,找到最适合网络的优化策略。本节首先训练了一个简单的全连接网络,然后在此基础上介绍了简单有效的神经网络性能提升技巧。
2023-07-25 07:07:58
745
120
原创 文心千帆大模型平台,一站式企业级大模型平台
随着人工智能技术的不断发展,尤其是深度学习技术的广泛应用,大模型训练已成为当下研究的热点之一,随着计算能力的不断提升和数据规模的不断增加,大模型展现出了惊人的能力,能够处理更加复杂和庞大的任务。从计算机视觉到自然语言处理,从语音识别到推荐系统,大模型正逐渐为多个领域取得突破性成果的重要基础。在本文中,我们将深入探讨大模型的概念、应用和挑战,并详细介绍百度智能云的大模型平台,通过实际体验来感受大模型的卓越性能。
2023-07-21 20:37:49
11024
106
原创 探索AI图像安全,助力可信AI发展
图像作为信息传递的主要媒介之一,需要重点解决在人工智能的发展过程中利用 AI 进行图像造假的问题。针对这一问题,中国信息通信研究院(中国信通院) 2023 世界人工智能大会( WAIC 2023 )上举办了专门论坛,围绕着“多模态基础大模型的可信AI”主题进行讨论。在该论坛上,合合信息关于 AI 图像内容安全的技术方案引起了广泛的关注。本文将对人工智能发展及其面对的安全挑战进行简要介绍,并回顾在 WAIC 2023 合合信息关于 AI 图像安全的相关分享。
2023-07-17 07:07:02
41349
70
原创 PyTorch深度学习实战(5)——计算机视觉基础
利用神经网络进行图像分析能够自动学习特征、处理非线性关系、具有鲁棒性和泛化能力,并且支持端到端学习和可扩展性,这使其成为当今计算机视觉领域的主要技术手段之一。本节介绍了计算机视觉的基本概念以及图像在计算机中的表示方法,为计算机视觉的高级任务奠定了基础。
2023-07-12 07:12:38
3507
40
原创 OpenCV实战(28)——光流估计
光流估计 (Optical Flow estimation) 在视频理解、动作识别、目标跟踪、全景拼接等领域具有重要应用,在各类视频分析任务中它反映了视频内部的运动信息,是一种重要视觉线索。本节中,将介绍了光流估计的基本原理,并使用 cv::DualTVL1OpticalFlow 类解决密集光流估计问题。
2023-07-09 22:58:20
474
19
原创 OpenCV实战(27)——追踪视频中的特征点
视频特征点追踪,对于分析视频中不同重要元素的移动而言十分重要,其中一些特征点的运动可用于了解捕获场景的不同元素如何移动。在本节中,我们将学习如何在特征点逐帧移动时通过跟踪特征点来执行序列的时间分析。
2023-07-02 07:26:34
1916
41
原创 PyTorch深度学习实战(4)——常用激活函数和损失函数详解
激活函数和损失函数是深度学习模型中重要组成部分,激活函数和损失函数的选择很大程度上决定了深度神经网络的性能和精度,需要根据具体问题的特点和数据分布等因素进行选择。在本节中,将介绍深度学习中常见的激活函数和损失函数,并说明不同函数的常见应用场景。
2023-06-23 08:06:46
885
15
原创 智能文档图像处理技术:解决大数据时代文档图像处理难题
智能文档图像处理技术是指利用计算机视觉和人工智能等技术对文档图像进行处理和分析,实现自动化识别、提取、分类和管理的技术。随着人工智能时代的到来和各行业信息化进程的加速,越来越多的个人和企业用户开始借助智能文档图像处理技术来提高工作效率,降低人力成本,并减少出错率。本文将探讨智能文档图像处理技术的基本原理和特点,回顾了合合信息在 VALSE 2023 会议上关于智能文档图像处理技术的相关分享,并详细介绍了版面分析技术及其应用,以深刻认识智能文档图像处理技术的重要性和应用价值。
2023-06-20 07:44:17
9490
26
原创 PyTorch深度学习实战(3)——使用PyTorch构建神经网络
PyTorch 是一个用于构建深度神经网络的库,具有灵活性和可扩展性,可以轻松自定义模型。在本节中,我们将使用 PyTorch 库构建神经网络,利用张量对象操作和梯度值计算更新网络权重,并利用 Sequential 类简化网络构建过程,最后还介绍了如何使用 save、load 方法保存和加载模型,以节省模型训练时间。
2023-06-13 07:42:47
15195
175
原创 OpenCV实战——提取视频中的前景对象
当固定摄像机观察场景时,背景基本保持不变。在这种情况下,我们真正感兴趣的目标是场景中的移动物体。为了提取这些前景物体,我们需要建立一个背景模型,然后将背景模型与当前帧进行比较,检测前景物体,前景提取是智能监控应用中的基本步骤。
2023-06-10 07:17:17
1356
10
原创 OpenCV实战(26)——视频序列处理
视频信号包含丰富的视觉信息,视频由一系列图像组成,每一图像称为一帧 (frame),这些图像以固定的时间间隔(通过指定帧率,单位为秒/帧)拍摄并显示运动场景。随着计算机算力的提升,现在已经可以对视频序列执行复杂的视觉分析,处理速度已经接近甚至快于实际视频帧率 (frame rate)。本节将学习如何读取、处理和存储视频序列。
2023-06-07 07:47:01
2299
18
原创 PyTorch深度学习实战(2)——PyTorch基础
PyTorch 是广泛应用于机器学习领域中的强大开源框架,因其易用性和高效性备受青睐。在本节中,将介绍使用 PyTorch 构建神经网络的基础知识。首先了解 PyTorch 的核心数据类型——张量对象。然后,我们将深入研究用于张量对象的各种操作。PyTorch 提供了许多帮助构建神经网络的高级方法及组件,并提供了利用 GPU 更快地训练神经网络的张量对象。
2023-06-04 07:54:46
11921
49
原创 OpenCV实战(25)——3D场景重建
3D 重建是计算机视觉中一个重要的研究领域,在本节中,我们将学习如何使用不同视图中图像点之间的对应关系来推断 3D 信息,同时介绍一个新的数学实体用于校准相机的两个视图之间的关系,并将讨论三角测量的原理以便从 2D 图像重建 3D 点。
2023-05-31 07:45:59
1934
19
原创 PyTorch深度学习实战(1)——神经网络与模型训练过程详解
在本节中,我们将了解传统机器学习与人工神经网络间的差异,并了解如何在实现前向传播之前连接网络的各个层,以计算与网络当前权重对应的损失值;实现反向传播以优化权重达到最小化损失值的目标。并将实现网络的所有关键组成——前向传播、激活函数、损失函数、链式法则和梯度下降,从零开始构建并训练了一个简单的神经网络。
2023-05-28 08:06:45
20302
138
原创 多模态大模型时代下的文档图像智能分析与处理
随着人工智能技术的不断发展,尤其是深度学习技术的广泛应用,多模态数据处理和大模型训练已成为当下研究的热点之一,这些技术也为文档图像智能处理和分析领域带来了新的发展机遇。在本节中,回顾来自中科院自动化研究所、北京大学、中科大的学术专家与合合信息等知名企业的研究者在中国图形图像大会 (CCIG 2023) 关于文档图像分析与处理的相关分享,介绍在多模态大模型时代下文档图像智能分析与处理技术的最新进展和发展展望。
2023-05-23 07:30:00
10696
30
原创 OpenCV实战(24)——相机姿态估计
如果物体的 3D 结构是已知的,那么就可以预测物体如何投影到相机的传感器上,图像形成的过程由投影方程描述。当方程的大部分项已知时,就可以通过观察一些图像来推断其他元素 (2D 或 3D) 的值。相机姿态估计就是通过几个已知坐标的特征点,以及这些点在照片中的成像位置,求解出相机位于坐标系内的坐标与旋转角度。在本节中,我们将研究观察已知 3D 结构时的相机姿态估计问题。
2023-05-17 08:11:32
1818
12
原创 OpenCV实战(23)——相机标定
我们已经了解了相机如何通过在 2D 传感器平面上投射光线来拍摄 3D 场景,生成的图像准确地表示了在捕获图像的瞬间从特定视点观察场景。然而,图像形成过程消除了与其所表示场景元素的深度有关的所有信息。为了恢复场景的 3D 结构和摄像机的 3D 姿态,我们需要对相机参数进行校准,在本节中,我们将介绍如何执行相机标定。
2023-05-14 08:02:38
2916
29
原创 OpenCV实战——根据立体图像计算深度信息
人类可以用两只眼睛构建三个维度世界,而为机器人配备两个摄像头时,机器人同样也可以做到这一点,这称为立体视觉 (stereo vision)。安装在设备上的一对摄像机可以观察同一场景并由固定基线(即两个摄像机之间的距离)分隔。本节将介绍如何通过计算两个视图之间的深度对应关系根据两个立体图像计算深度图像。
2023-05-10 07:34:20
1396
10
用于目标检测的 YOLO V3 模型架构及权重文件(含 OpenCV 使用示例)
2021-09-30
用于目标检测的 MobileNet-SSD 模型架构及权重文件(使用 Caffe 框架进行预训练)
2021-09-30
用于图像分类的 ResNet-50 模型架构及权重文件(使用 Caffe 框架进行预训练)
2021-09-30
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人