实用工具(数据集处理)
文章平均质量分 50
深度学习对数据集处理的工具,我们将深入讨论数据清洗、标注、增强、分割等关键步骤,以及如何使用自动化和半自动化工具来提高效率。从基础概念到高级技巧,从理论框架到实战案例,每一期内容都将为您带来前沿洞见,无论是初学者还是经验丰富的数据科学家,都能在此找到灵感和实用指南。
布尔大学士
工学博士在读,主要从事智能制造、工业精密检测、智能化设备研发等方向研究,已发表二区Top文章一篇、国家级竞赛二等奖一项、已授权软件著作权两项、已发表中文期刊两篇,先后参与国家自然科学基金面上项目、省重点研发计划等课题。
展开
-
【数据集处理工具】将COCO格式数据集的val.json与tett.json文件合并为一个json
合并images字段:脚本会将来自不同JSON文件的图像信息列表合并在一起,构建一个统一的图像信息集合。合并字段:脚本在合并标注信息时,会确保每个标注的ID(id字段)在最终的合并数据集中是唯一的。这通过追踪已有的最大标注ID并在导入新的标注时递增ID来实现。保留categories字段:由于假定所有数据集的类别信息一致,脚本默认从第一个数据集中复制categories字段到合并后的数据集,而不做任何改变。保留其他元数据:脚本还会保留info和licenses。原创 2024-07-16 14:29:33 · 576 阅读 · 0 评论 -
【数据集处理工具】根据COCO数据集的json标注文件实现训练与图像的文件划分
COCO(Common Objects in Context)数据集是一种广泛使用的图像数据集,它不仅包含了丰富的图像资源,还提供了详尽的标注信息,包括物体检测、分割、关键点定位等。COCO JSON文件是一种结构化的数据格式,用于存储关于图像的元数据和标注细节,例如图像ID、文件名、图像尺寸以及各种标注信息。原创 2024-07-16 10:02:19 · 574 阅读 · 0 评论 -
CSF视频文件格式转换WMV格式(2024年可用)
推荐一款高效、易用的CSF格式转换为WMV格式的工具,旨在帮助用户无缝跨越格式壁垒,享受无损且流畅的视频体验。产品亮点:一键转换:这款工具设计简洁直观,用户只需几步简单操作即可完成CSF格式到WMV格式的转换。无需专业知识,轻松上手。高质量输出:采用先进的视频编码技术,确保转换过程中视频质量最大化保留,无论是清晰度、色彩还是音频效果,都能得到近乎无损的转换结果。批量处理:支持批量添加CSF文件进行转换,大大节省时间,非常适合需要处理大量视频素材的用户。原创 2024-06-28 14:12:11 · 647 阅读 · 0 评论 -
Visio/PPT/Matlab输出300dpi以上图片【满足标准投稿要求】
遵照如下输出选项,另存为tif格式文件时,选择正确输出便是300dpi以上。原创 2023-07-24 18:29:56 · 2444 阅读 · 0 评论 -
【数据集可视化】COCO数据集标注可视化+代码实现
【代码】【数据集可视化】COCO数据集标注可视化+代码实现。原创 2023-07-03 22:18:50 · 1341 阅读 · 0 评论 -
学术小技巧:如何使用easyscholar来提高论文查找效率
easyScholar是一款很好用的科研插件,可以显示会议期刊登记,支持轻量翻译,一键下载等等功能。原创 2023-06-25 15:56:55 · 4388 阅读 · 0 评论 -
深度学习模型训练中epoch、batch size和iterations之间的含义与区别
深度学习模型训练中epoch、batch size和iterations之间的含义与区别原创 2023-06-07 17:39:49 · 1428 阅读 · 1 评论 -
Pytorch疑难小实验:Torch.max() Torch.min()在不同维度上的解释
【代码】Torch.max() Torch.min()在不同维度上的解释。原创 2023-04-11 21:32:04 · 277 阅读 · 0 评论 -
COCO转VOC代码:将coco格式的json文件转换为voc格式的xml文件
【代码】COCO转VOC代码。原创 2023-02-12 23:44:16 · 975 阅读 · 3 评论 -
PASCAL VOC数据集分割为小样本数据集代码
【代码】PASCAL VOC数据集分割为小样本数据集代码。原创 2023-02-05 12:10:38 · 2522 阅读 · 0 评论 -
PASCAL VOC数据集训练集、验证集、测试集的划分和提取,得到test.txt、train.txt、trainval.txt、val.txt文件代码
创建py文件,将下属代码放入所创建的文件里,VOC2007数据集与py文件在同一目录下。原创 2023-02-05 12:05:10 · 2991 阅读 · 0 评论 -
Pytorch疑难小实验:理解torch.cat()在不同维度下的连接方式
【代码】Pytorch疑难小实验:理解torch.cat()在不同维度下的连接方式。原创 2022-11-23 21:03:13 · 24073 阅读 · 0 评论 -
小工具:批量替换文件夹下所有文件内容中的指定词
数据集中的xml信息所标注的文件后缀写错了,应该为jpg,因此需要将所有xml文件的.png修改为.jpg。函数作用:找出某文件夹下的包含指定关键词文件列表,并将关键字修改为目标字并将新内容保存至源文件。原创 2022-10-04 19:03:55 · 21230 阅读 · 0 评论 -
git clone 从GitHub上下载项目到服务器上运行+创建虚拟环境
git clone 从GitHub上下载项目到服务器上运行原创 2022-10-03 10:51:46 · 20977 阅读 · 1 评论 -
【数据集可视化】VOC数据集标注可视化+代码实现
在做目标检测时,首先要检查标注数据。一方面是要了解标注的情况,另一方面是检查数据集的标注和格式是否正确,只有正确的情况下才能进行下一步的训练。原创 2022-08-02 13:43:26 · 4072 阅读 · 6 评论 -
【数据集转换】VOC数据集转COCO数据集·代码实现+操作步骤
【已成功】在自己的数据集上实验时,往往需要将VOC数据集转化为coco数据集,因为这种需求所以才记录这篇文章,代码出处未知,感谢开源。原创 2022-08-02 13:34:46 · 8413 阅读 · 16 评论 -
如何监控NVIDIA Jetson的的运行状态和使用情况
jtopALL收集有关您的主板的所有信息CPU状态、内存、GPU、磁盘、风扇以及有关jetson_clocks、NVPmodel和其他的所有状态GPU有关您的NVIDIAJetson的实时GPU历史记录CPUNVIDIAJetson的实时CPU图MEM实时内存图表和交换监视器CTRL直接从此处启用/禁用、nvpmodel或风扇INFO有关库、CUDA、序列号、接口等的所有信息。......原创 2022-07-23 11:35:04 · 10298 阅读 · 0 评论 -
【数据集显示标注】VOC文件结构+数据集标注可视化+代码实现
在做目标检测时,首先要检查标注数据。一方面是要了解标注的情况,另一方面是检查数据集的标注和格式是否正确,只有正确的情况下才能进行下一步的训练。主要提供的是PASCALVOC所提供的所有的图片信息,包括训练图片,测试图片。主要存放xml格式的标签文件,每个xml对应JPEGImage中的一张图片。这些图像就是用来进行训练和测试验证的图像数据。保存的是物体分割后的数据,在物体识别中没有用到。原因你的路径写错了。............原创 2022-07-23 09:54:38 · 9157 阅读 · 0 评论 -
如何监控NVIDIA GPU 的运行状态和使用情况
设备跟踪和管理正成为机器学习工程的中心焦点。这个任务的核心是在模型训练过程中跟踪和报告gpu的使用效率。有效的GPU监控可以帮助我们配置一些非常重要的超参数,例如批大小,还可以有效的识别训练中的瓶颈,比如CPU活动(通常是预处理图像)占用的时间很长,导致GPU需要等待下一批数据的交付,从而处于空闲状态。什么是利用率?过去的一个采样周期内GPU 内核执行时间的百分比,就称作GPU的利用率。如果这个值很低,则意味着您的 GPU 并没有全速的工作,可能是受到 CPU或者IO 操作的瓶颈,如果你使用原创 2022-05-13 11:08:42 · 16946 阅读 · 2 评论 -
将XML格式转化为YOLO需要的txt格式(代码)
1、XML的格式<annotation> <folder>cr</folder> <filename>crazing_2.jpg</filename> <source> <database>NEU-DET</database> </source> <size> <width>200</width> <height>200&..原创 2022-05-04 23:22:42 · 9368 阅读 · 10 评论 -
Win10系统下使用anaconda在虚拟环境下安装CUDA及CUDNN
前排预警:不要挂梯子!!!!!使用清华源就行不然报错!!!!解决check_hostname requires server_hostname_orange_の_呜的博客-CSDN博客错误描述在GitHub下载代码文件后使用pip install -r requirement.txt下载依赖包时出现check_hostname requires server_hostname错误解决办法原因是开启了VPN,或者局域网代理,关闭后重新下载即可。https://blog.csdn.net/m0_462688原创 2022-05-04 23:16:46 · 6836 阅读 · 0 评论 -
python导出项目所依赖的所有的库文件以及安装
python项目包的导入和导出1、导出pip freeze > filename.txt# filename.txt 可随意命名# 同时filename.txt 文件中可自定义编辑,也是能够进行包的批量安装。2、导入(包的批量安装)pip install -r filename.txt...原创 2022-04-15 18:56:52 · 13398 阅读 · 0 评论 -
★Anaconda中创建、切换、删除虚拟环境(指定仓库)
每次电脑重启后,都要切入虚拟环境,命令总是忘记。如果使用IDE,可以指定interpeter方便的切换。首先conda info --env 查看当前有几个环境激活/禁用环境source activate 环境名称source deactivate 环境名称如果是windows,不需要前面的source删除环境conda remove -n 环境名称 --all 注:删除某个环境前,先要将其source deactivate......原创 2021-11-10 23:27:46 · 6546 阅读 · 0 评论 -
Anaconda 镜像源操作(查看配置删除)
一、Anaconda查看镜像配置conda config --show channelschannels:https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/ https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/ defaults二、添加清华大学镜像conda config --add channels https://mirrors.tuna.tsin.原创 2021-12-14 22:23:13 · 10496 阅读 · 0 评论 -
用Python语言对任意图像进行m*n的均匀分块(思路非常清晰,步骤简单)
import numpy as npimport matplotlib.pyplot as pltimport cv2def divide_method1(img,m,n):#分割成m行n列 print(img.shape) h, w = img.shape[0],img.shape[1] gx = np.round(h).astype(np.int) gy = np.round(w).astype(np.int) divide_image = np.zer.原创 2022-04-19 22:15:17 · 9435 阅读 · 9 评论 -
Python工具:将文件夹下的视频按照帧数输出图片文件(含代码)
1、描述将一个视频流按帧数截取大量的图片2、用途AI的数据集制作,得到大量的图片,之后将其打标签3、案例文件截图4、代码实现:import cv2import argparseimport os# 边里该文件夹下的文件名称def read_directory(directory_name): file_list = [] for filename in os.listdir(directory_name): str = directo.原创 2022-04-19 18:28:15 · 13850 阅读 · 0 评论