
图像处理篇
文章平均质量分 90
Ronin-Lotus
这个作者很懒,什么都没留下…
展开
-
程序代码篇---Pytorch实现LATM+APF轨迹预测
本文探讨了如何结合LSTM(长短期记忆网络)和APF(人工势场法)来提升无人驾驶系统的轨迹预测与路径规划能力。LSTM通过其门控机制捕获车辆历史运动的时序特征,精准预测未来轨迹;APF则基于实时环境信息生成无碰撞路径,通过目标引力和障碍物斥力动态调整路径。两者的深度融合能够整合历史数据与当前环境,生成平滑、安全的行驶轨迹,有效应对复杂道路场景(如雨雾天气、交通拥堵等)。文章还提供了基于PyTorch的LSTM模型实现和APF算法,展示了如何通过多模态融合优化无人驾驶决策。原创 2025-05-23 00:13:41 · 767 阅读 · 0 评论 -
程序代码篇---Python处理ESP32-S3-cam的视频流进行人脸检测和姿态检测
本文介绍了基于 ESP32-S3-CAM 的人脸姿态检测系统,并提供了相关代码示例。系统通过摄像头捕获图像,并利用人脸关键点数据进行姿态估计。代码中定义了 FaceDetectionStream 类,用于从 ESP32-S3-CAM 获取图像和人脸数据,并通过多线程实现并行处理。PoseEstimator 类则利用 3D 人脸模型和 2D 关键点进行姿态估计,计算欧拉角。此外,WarningSystem 类用于在检测到异常姿态时触发警告,支持自定义警告音或系统蜂鸣。原创 2025-05-22 00:42:14 · 961 阅读 · 0 评论 -
程序代码篇---Python处理ESP32-S3-cam视频流
本文介绍了如何使用Python获取并显示ESP32-S2-Cam生成的HTTP视频流,并提供了优化显示性能的方法。基本代码使用OpenCV库捕获和显示视频流,用户需替换实际的视频流URL。优化后的代码通过多线程处理、帧大小调整、自动重连机制和资源释放优化,提升了视频流的显示性能和稳定性。此外,建议通过调整ESP32-S2-Cam的分辨率、帧率,优化网络连接,以及使用硬件加速等方式进一步提升性能。原创 2025-05-22 00:08:53 · 1483 阅读 · 0 评论 -
图像处理篇--- HTTP|RTSP|MJPEG视频流格式
视频流技术是现代多媒体应用的核心,常见的传输方式包括MJPEG、RTSP和HTTP流。MJPEG是一种简单的视频压缩格式,通过HTTP传输独立的JPEG图像,具有低延迟和兼容性好的特点,但带宽效率低且不支持音频,适用于网络摄像头和嵌入式设备。RTSP是专为流媒体设计的协议,通常与RTP配合使用,支持低延迟和精确播放控制,但实现复杂且兼容性有限,适用于专业视频监控和视频会议。HTTP流基于HTTP协议,支持自适应码率和广泛兼容性,但延迟较高,常用于视频点播和直播服务。未来趋势包括WebRTC的崛起、低延迟HL原创 2025-05-10 22:46:28 · 1571 阅读 · 0 评论 -
图像处理篇---MJPEG视频流处理
MJPEG(Motion JPEG)是一种简单的视频流格式,由连续的JPEG图像组成,通常通过HTTP协议传输。Python处理MJPEG流的方法包括基础处理和高级处理。基础方法包括使用OpenCV直接读取和手动解析HTTP流,前者实现简单但兼容性有限,后者可完全控制流处理但实现复杂。高级方法包括异步IO处理(asyncio)和生成器管道处理,前者适合高性能应用,后者便于添加自定义处理逻辑。专业级方法则使用FFmpeg作为后端,适合复杂场景。这些方法各有优缺点,开发者可根据需求选择合适的方式处理MJPEG流原创 2025-05-10 22:05:48 · 1099 阅读 · 0 评论 -
程序代码篇---esp32视频流处理
本文介绍了如何使用Python读取和处理ESP32摄像头的视频流。ESP32摄像头通常通过Wi-Fi提供视频流,支持HTTP、RTSP和MJPEG等协议。文章详细展示了如何使用OpenCV库读取HTTP和RTSP视频流,并通过requests库处理MJPEG流。此外,还提供了处理连接不稳定、提高视频流性能的解决方案,如降低分辨率、跳过帧等。对于高级用户,文章还介绍了使用FFmpeg和PyAV库作为后端的方法。通过这些方法,用户可以轻松获取并处理ESP32摄像头的实时视频流。原创 2025-05-10 21:40:41 · 1103 阅读 · 0 评论 -
程序代码篇---Python视频流
Python 提供了多种库(如 OpenCV、PyAV、imageio)来处理视频流,广泛应用于计算机视觉领域。OpenCV 是最常用的库,支持从摄像头或视频文件中捕获视频流,并提供了帧读取、属性设置、视频写入等基础功能。此外,OpenCV 还支持多摄像头处理、帧处理(如灰度转换、边缘检测)以及视频流分析与统计(如实时 FPS 计算)。PyAV 和 imageio 是其他常用的视频处理库,分别基于 FFmpeg 和 imageio 提供视频读取与写入功能。为了优化视频流处理,可以使用多线程技术或动态调整分辨原创 2025-05-10 21:23:37 · 686 阅读 · 0 评论 -
深度学习篇---MediaPipe 及其人体姿态估计模型详解
MediaPipe 是 Google 开发的开源跨平台框架,专为构建多模态(如视频、音频)的机器学习管道而设计,特别适用于实时应用。其核心特点包括跨平台支持(Android、iOS、Windows等)、实时性能优化、模块化设计以及多种预训练模型(如人脸检测、手势识别、人体姿态估计)。MediaPipe 提供了两种主要的人体姿态估计模型:MediaPipe Pose(BlazePose)和 MediaPipe Holistic。BlazePose 支持 33 个关键点检测,适用于移动设备,而 Holistic原创 2025-05-10 19:21:34 · 1317 阅读 · 0 评论 -
深度学习篇---姿态检测实现
坐姿检测可以通过**传统机器学习**或**深度学习**方法实现。下面我将详细介绍两种方法,并提供相应的Python实现代码。原创 2025-05-10 18:43:17 · 816 阅读 · 0 评论 -
图像处理篇---opencv实现坐姿检测
本文介绍了使用Python实现坐姿检测的方法,主要基于OpenCV和MediaPipe库。通过检测人体关键点(如肩膀、耳朵、臀部等),计算关键点之间的角度,并根据预设的阈值评估坐姿是否正确。代码实现了一个PostureDetector类,包含姿势检测、关键点获取、角度计算和坐姿评估等功能。通过分析脊柱和颈部的角度,系统能够判断用户是否保持良好坐姿,并记录姿势变化的时间。该方法适用于实时视频流或静态图像的坐姿检测,帮助用户改善坐姿习惯。原创 2025-05-10 18:21:59 · 1156 阅读 · 0 评论 -
深度学习篇---模型权重变化与维度分析
通过增加网络深度和引入高级技术,模型可以解决更复杂的问题(如图像分类、自然语言处理)。理解权重的动态变化和维度传递,是设计高效神经网络的关键。本文简单介绍了神经网络模型权重变化与维度分析的相关知识。模型定义:Linear(1,1) 创建输入输出均为 1 维的全连接层,权重 (1,1),偏置 (1,)。维度匹配:权重维度确保矩阵乘法可行(如 (n,m) 与 (m,batch) 相乘)。问题 解决方案 代码示例。原创 2025-04-29 18:38:39 · 1779 阅读 · 0 评论 -
深度学习篇---抽样
抽样是将连续时间信号转换为离散时间信号的关键过程,其数学本质是用脉冲序列对连续信号进行调制。原创 2025-04-28 13:04:29 · 983 阅读 · 0 评论 -
图像处理篇---信号与系统的应用
图像和视频作为典型的时空信号,与信号与系统理论有着深刻的联系。原创 2025-04-28 12:42:04 · 1257 阅读 · 0 评论 -
【KWDB 创作者计划】_深度学习篇---归一化&反归一化
本文简单介绍了归一化和反归一化。归一化和反归一化是数据预处理中的关键技术,尤其在机器学习和数据挖掘领域广泛应用。通过合理应用归一化和反归一化,能显著提升模型性能并确保结果可解释性。实际应用中需根据数据分布和模型需求选择方法。归一化是将数据按比例缩放至特定范围(如[0, 1]或[-1, 1]),消除量纲差异,提升模型收敛速度和精度。将归一化后的数据还原至原始量纲,用于结果解释或反向计算。原创 2025-04-23 19:58:08 · 747 阅读 · 0 评论 -
【KWDB 创作者计划】_算法篇---Stockwell变换
Stockwell变换(S变换)是一种强大的时频分析工具,它结合了短时傅里叶变换和小波变换的优点,特别适合分析非平稳信号。对于连续时间信号x(t),其S变换定义为:其中:τ:时间中心位置f:分析频率w(t,f) = (|f|/√(2π)) * e^(-t²f²/2) 是高斯窗函数Stockwell 变换是对短时傅里叶变换的改进,它将窗函数的宽度与频率成反比,使得在低频段具有较好的频率分辨率,在高频段具有较好的时间分辨率。原创 2025-04-18 20:34:56 · 769 阅读 · 0 评论 -
【KWDB 创作者计划】_上位机知识篇---SDK
软件开发工具包)是开发者用于构建特定平台、硬件或服务的应用程序的一站式工具集合。它包含开发所需的核心工具、接口、文档和示例代码,大幅降低开发门槛。SDK是开发者与复杂系统(硬件、平台、服务)之间的桥梁。通过提供标准化工具和接口,它让开发者能专注于业务逻辑,而非底层细节。无论是调用一颗AI加速芯片,还是接入微信小程序,SDK都是现代软件开发不可或缺的“瑞士军刀”。原创 2025-04-17 22:42:57 · 993 阅读 · 0 评论 -
【KWDB 创作者计划】_深度学习篇---松科AI加速棒
松科 TPU是一款自主的、高性能的、通用深度学习加速棒。同时支持X86 平台、ARM平台、MIPS 平台、Loong Arch 平台等主流平台的运行。内置CNN 网络加速引擎,可以实现高性能、低功耗的 CNN 网络模型的加速。松科 TPU 架构设计先进,可以高效完成多路动态视频流的人脸检测、跟踪、特征提取和识别,高效支持墨镜、口罩、性别、年龄等属性检测。提供强大的可编程运算能力,满足CNN 算法实时性处理的运算要求。原创 2025-04-17 22:17:37 · 833 阅读 · 0 评论 -
【KWDB 创作者计划】_深度学习篇---常见卷积核
卷积核(Convolution Kernel)是卷积神经网络(CNN)中的核心组件,用于**提取图像或特征图的局部特征。在CNN中,卷积核的权重通常通过训练自动学习,可能包含复杂的非线性模式。原创 2025-04-16 01:48:59 · 544 阅读 · 0 评论 -
深度学习篇---num_works选择
在 PyTorch 的 DataLoader 中,num_workers参数控制数据加载时的并行子进程数量。合理选择该参数可以显著提升数据加载效率,避免训练瓶颈。默认推荐:从开始,逐步增加并观察训练速度。原创 2025-04-04 04:10:35 · 1201 阅读 · 0 评论 -
深度学习篇---模型训练早停机制
早停机制(Early Stopping)是深度学习中防止模型过拟合的核心正则化技术之一,其核心思想是通过监控验证集性能,在模型开始过拟合前终止训练。早停机制通过监控验证集性能平衡欠拟合与过拟合,是实际训练中必备的优化策略。合理设置 patience 和 min_delta,结合模型保存与学习率调度,可显著提升训练效率和模型泛化能力。原创 2025-04-04 03:56:49 · 1446 阅读 · 0 评论 -
深度学习篇---网络结构
本文简单介绍了,Pytorch框架下的一款深度学习网络框架的配置。原创 2025-04-01 01:41:00 · 1444 阅读 · 0 评论 -
深度学习篇---模型参数调优
本文简单介绍了深度学习中的epoch、batch、learning-rate参数大小对模型训练的影响,以及怎样进行适当调优。原创 2025-03-30 15:12:40 · 1500 阅读 · 0 评论 -
深度学习篇---模型GPU训练
本文简单介绍了paddlepaddle、pytorch框架下使用GPU进行模型训练的步骤以及注意事项,同时介绍了Openmp以及相应问题的解决。原创 2025-03-30 14:51:55 · 1355 阅读 · 0 评论 -
深度学习篇---模型训练评估参数
例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。定义:预测为正例的样本中,真正为正例的比例。计算公式为:其中TP(True Positive)表示真正例,即实际为正例且被预测为正例的样本数量;FP(False Positive)表示假正例,即实际为负例但被预测为正例的样本数量。定义:实际为正例的样本中,被预测为正例的比例。原创 2025-03-29 02:50:16 · 1774 阅读 · 0 评论 -
深度学习篇---paddleocr正则化提取
本文简单介绍了paddleocr中使用的到的正则化。# 定义正则表达式模式# 快递单号:通常是数字和字母的组合,长度可能在 10 到 20 位左右# 手机号:以 1 开头,后面跟 10 位数字# 姓名:简单假设为 2 到 4 个汉字------express_pattern = r'[A-Za-z0-9]{10,20}':定义快递单号的正则表达式模式,匹配由 10 到 20 位的字母(大小写均可)和数字组成的字符串。原创 2025-03-28 12:42:21 · 583 阅读 · 0 评论 -
深度学习篇---paddleocr进阶
本文简单介绍了paddleocr提升识别准确率的方法以及代码实现。自定义词典:在中按行加入专用词汇(如医学术语)。适用场景:专用场景(如古籍、手写体)需微调模型。原创 2025-03-28 12:21:08 · 1373 阅读 · 0 评论 -
深度学习篇---数据操作
在机器学习和深度学习中,数据处理是核心步骤之一。Python 提供了丰富的工具库(如等)用于读取、操作和预处理数据。操作类型 工具/库 核心函数/方法CSV 读取 pandas pd.read_csv()矩阵操作 numpy np.array(), reshape(), dot()数据清洗 pandas dropna(), fillna(), drop_duplicates()原创 2025-03-26 19:15:40 · 916 阅读 · 0 评论 -
深度学习篇---断点重训&模型部署文件
在框架中,断点重训(恢复训练)和模型部署需要保存不同类型的文件用途 文件类型 动态图(DyGraph) 静态图(Static Graph)断点重训模型参数 .pdparams.pdparams或 .ckpt优化器状态.pdopt.pdopt或 .ckpt元信息自定义(如 .pdmeta 或 .pkl) 自定义模型部署模型结构.pdmodelmodel模型参数.pdiparamsparams。原创 2025-03-26 18:57:26 · 1614 阅读 · 0 评论 -
深度学习篇---回归&分类任务的损失函数
本文简单介绍了深度学习中常用的损失函数。比如用于回归任务的交叉熵损失、Focal Loss损失;用于分类任务的MAE\MSE\Huber损失等。分类任务:优先选择交叉熵损失,处理不平衡数据时使用 Focal Loss。原创 2025-03-25 13:59:28 · 1319 阅读 · 0 评论 -
深度学习篇---卷积网络结构
本文简单介绍了CNN卷积神经网络与残差块实现回归任务的代码以及接下来的优化方案。原创 2025-03-25 13:14:13 · 1273 阅读 · 0 评论 -
深度学习篇---分类任务图像预处理&模型训练
本文简单介绍了pytoch、paddlepaddle框架下的分类任务的图像预处理、模型训练以及模型保存的流程。# 初始化数据集路径和标签self.classes = os.listdir(data_dir) # 获取类别文件夹(如class1, class2)self.image_paths = [] # 存储所有图像路径self.labels = [] # 存储对应标签# 遍历子文件夹,构建路径和标签的映射self.transform = transform # 数据增强/归一化操作。原创 2025-03-16 09:41:56 · 1684 阅读 · 0 评论 -
图像处理篇---图像预处理
图像预处理是机器学习和计算机视觉任务中至关重要的一环,其核心目的是通过对原始图像进行优化和调整提升模型性能、降低噪声干扰、增强关键特征,并适应模型的输入要求。原创 2025-03-16 09:04:58 · 2592 阅读 · 2 评论 -
程序代码篇---循双边线
本文简单介绍了循双边线的方法以及python\C++的实现。原创 2025-03-15 09:15:15 · 1014 阅读 · 0 评论 -
程序代码篇---循中心线
本文简单介绍了循中心线的方法以及python\C++的实现。原创 2025-03-15 08:53:46 · 916 阅读 · 0 评论 -
程序代码篇---Python线程&进程
本文通过摄像头视频处理与车道线循迹实例,介绍了双线程并行的相关知识。原创 2025-03-14 09:11:13 · 869 阅读 · 0 评论 -
深度学习篇---Opencv中Haar级联分类器的自定义
训练自定义 Haar 级联分类器的流程包括数据准备、生成样本描述文件、训练分类器和测试分类器。虽然训练过程可能耗时,但通过合理的参数调整和数据优化,可以获得高性能的分类器,用于检测特定的目标对象。原创 2025-03-13 10:35:43 · 1051 阅读 · 0 评论 -
深度学习篇---Opencv中的Haar级联分类器
通过理解配置文件的结构和使用方法,可以更好地应用 Haar 级联分类器进行目标检测。原创 2025-03-13 10:08:52 · 945 阅读 · 0 评论 -
图像处理篇---opencv中的图像特征
OpenCV 提供了多种传统图像特征提取方法,这些特征可以用于机器学习任务(如图像分类、目标检测)。以下是 OpenCV 中常用的纹理特征(LBP)和形状特征(Hu矩)的详细介绍,以及其他可用于传统机器学习的特征。局部二值模式(Local Binary Pattern, LBP)是一种用于描述图像局部纹理特征的算子。它通过比较像素点与其邻域像素的灰度值,生成二进制模式,进而提取纹理信息。Hu矩是一种基于图像几何矩的形状特征,具有平移、旋转和缩放不变性。它通过计算图像的七个不变矩来描述图像的形状特征。原创 2025-03-08 18:10:42 · 1014 阅读 · 0 评论 -
深度学习篇---Opencv中的机器学习和深度学习
OpenCV 是一个开源的计算机视觉库,广泛应用于图像处理、视频分析对象检测等领域。它不仅提供了传统的计算机视觉算法,还集成了机器学习和深度学习的功能。以下是对 OpenCV 中机器学习和深度学习的详细介绍,包括使用步骤、优点和缺点。OpenCV 提供了多种经典的机器学习算法支持向量机 (SVM)K近邻 (K-Nearest Neighbors, KNN)决策树 (Decision Trees)随机森林 (Random Forests)朴素贝叶斯 (Naive Bayes)原创 2025-03-08 17:56:45 · 1252 阅读 · 0 评论 -
深度学习篇---不同框架下的图像通道
在深度学习中,通道形状(Channel Order)是数据张量(Tensor)中通道(Channel)维度的排列顺序不同框架对默认通道顺序的定义可能不同。以下是主流深度学习框架的通道形状规则及注意事项1.NCHW:主流框架(如PyTorch、PaddlePaddle、MXNet)的默认格式,适合GPU训练和跨框架模型交换。2.NHWC:TensorFlow 的默认格式,适合CPU推理和移动端部署。3.统一格式:在模型开发和部署中,明确通道顺序并保持一致,避免形状不匹配和性能损失。原创 2025-03-05 18:05:33 · 1406 阅读 · 0 评论