数虫-CSDN博客

原创图像预处理（1）

在二值化过程中，根据像素的灰度值与设定的阈值进行比较，将像素分为两个类别：低于阈值的像素被设为黑色，高于阈值的像素被设为白色。这种转换可以突出图像中的物体轮廓，简化图像，并提取出感兴趣的目标。自适应阈值二值化（Adaptive Thresholding）是一种将图像转换为黑白（二值化）图像的方法，其中阈值是根据图像局部区域的亮度来确定的，而不是全局应用一个固定的阈值。二值化是将图像转换为只包含两个灰度值的图像，通常是将图像中的像素值限定为两个固定的值，例如0和255，用于表示黑色和白色。

2023-07-24 14:18:08 278

原创超级好用、超准文字识别框架----飞浆PaddlePaddleOCR（文件检测+识别）实战篇

飞桨（PaddlePaddle）OCR（Optical Character Recognition）是一个开源的深度学习框架，用于文字识别任务。它提供了一系列强大的工具和模型，可以用于实现各种文本识别应用。文字检测（Text Detection）：通过检测图像中的文本区域，确定文本的位置和边界框。文字识别（Text Recognition）：将检测到的文本区域进行识别，将图像中的文字转化为可读的文本内容。

2023-07-20 14:00:06 3695

原创 YOLO5-v5.0训练自定义数据集（完整教程）

一般目标检测的数据集资源标签的格式都是VOC：xml格式，而yolov5训练所需要的文件格式是yolo：txt格式，则需要对xml格式的标签文件转换为txt文件。1、修改数据配置文件 :一个是data目录下的相应的yaml文件，一个是model目录文件下的相应的yaml文件。训练自己的数据集的话，那么就需要修改其中的.yaml文件。数据训练好之后，就会在主目录下产生一个run文件夹，在run/train/exp/weights目录下会产生两个权重文件，一个是最后一轮的权重文件，一个是最好的权重文件。

2023-05-19 13:36:10 1384

原创 YOLO5-v5.0训练自定义数据集的问题与解决

YOLO5-v5.0运行的出现的问题

2023-05-19 10:10:39 170 1

原创搭建maskrcnn-benchmark的环境遇到问题

对于layers下面的文件，nms.py、roi_align.py等出现这个错误的from maskrcnn_benchmark import _C都换成from ._utils import _C就解决了。在GitHub中直接下载该库，然后解压。并放到相应的位置上。永久：到环境变量PATHONPATH 添加，没有就新建一个。设置环境变量---我的cl.exe位置跟网上不太一样；这个库的安装不是像其他的一样的直接使用。的形式，而是使用原始的Git方式。

2023-05-12 16:37:17 1601 2

原创 Pytorch版Mask-RCNN图像分割实战（自定义数据集）

Mask R-CNN是一种广泛应用于目标检测和图像分割任务的深度学习模型，它是由Faster R-CNN（一种快速目标检测模型）和Mask R-CNN（一种实例分割模型）组成的。Mask R-CNN将Faster R-CNN中的RPN和RoI Pooling层替换成了RPN和RoI Align层，以实现像素级的图像分割，能够同时检测出多个对象，并对每个对象进行像素级的分割。

2023-05-12 16:32:55 7312 2

原创目标检测小知识

COCO的检测任务共含有80个类，在2014年发布的数据规模分train/val/test分别为80k/40k/40k，学术界较为通用的划分是使用train和35k的val子集作为训练集（trainval35k），使用剩余的val作为测试集（minival），同时向官方的evaluation server提交结果（test-dev）。目标检测（Object Detection）的任务是找出图像中所有感兴趣的目标（物体），确定它们的类别和位置，是计算机视觉领域的核心问题之一。

2023-05-08 16:49:46 264

原创 KMeans聚类之降维----矢量化应用

KMeans是聚类算法的典型代表，也是最简单的聚类算法；在KMeans算法中，簇的个数K是一个超参数，需要我们人为输入来确定。KMeans的核心任务就是根据我们设定好的K，找出K个最优的质心，并将离这些质心最近的数据分别分配到这些质心代表的簇中去。KMeans算法的时间复杂度：KMeans算法的平均复杂度是O(k*n*T)，其中k是我们的超参数，所需要输入的簇数，n是整个数据集中的样本量， T是所需要的迭代次数(相对的，KNN的平均复杂度是O(n))。

2023-05-07 16:09:08 505

原创时间序列异常值检测---Prophet算法

Prophet由facebook开源的基于python和R语言的数据预测工具，基于时间和变量值结合时间序列分解和机器学习的拟合来做的；可以解决大部分的实际场景中的对单项值的预测，也可以用于时间序列数据的异常值检测以及缺失值填充；一般会把时间序列拆分成几个部分，分别是s(t)季节项：表示周期项，或者称为季节项，一般以周者年为单位；趋势项g(t)：表示时间序列在非周期上面的变化趋势；假期项h(t)：表示在当天是否存在节假日；剩余项εt表示误差项或者称为剩余项；

2023-05-05 15:53:31 1533

原创 informer自定义数据集

将自定义数据序列数据集文件夹添加到data文件夹下之后，前往代码修改以下几个地方：1、自定义数据集的时间列的字段名称要是“date”；#想要获得最终预测的话这里应该设置为True；否则将是获得一个标准化的预测。

2023-05-04 15:13:12 3433 9

原创时间序列聚类

时间序列聚类：一种将时间序列数据分为不同组的无监督学习方法。聚类方法旨在找到数据中相似的子集，并将它们归为同一组。对于时间序列数据而言，聚类技术可以发现有相似特征的序列，并将它们划分为同一组，这有助于数据的分类和分析。时间序列聚类包括两种类型：子序列聚类和时间点聚类。子序列聚类是通过滑动窗口在一个时间序列中提取的一系列子序列上的聚类；时间点聚类基于时间点的时间接近度和对应值的相似性组合的聚类。时间序列聚类通常使用常见的聚类算法，如K-means、Ksahpe 、层次聚类等。

2023-04-27 15:36:16 5654 2

原创时间序列数据预处理

时间序列数据是指按照时间顺序排列的一系列数据点或观测值，通常用于描述某个变量随时间的变化情况。例如，股价、气温、人口数量等都可以被视为时间序列数据。时间序列数据的预处理是进行时间序列分析的重要步骤。

2023-04-11 14:23:09 4827

转载如何选择正确机器学习算法

理解数据当我们决定使用哪种算法时，我们所拥有的数据的类型和形态起关键作用。有些算法可以利用比较小的样本集合工作，而另一些算法则需要还量的样本。特定的算法对特定类型的数据起作用。例如，朴素贝叶斯算法对处理待分类的输入特别有效，但是对缺失值则一点都不敏感。因此，你需要做到：了解你的数据：查看总结统计和数据可视化的结果百分比可以帮助你认识大多数数据的范围平均数和中位数可以描述集中趋...

2018-08-22 16:30:41 347

原创数据库--函数

学习重点：根据用途，函数可以大致分为算术函数、字符串函数、日期函数、转换函数和聚合函数。函数的种类很多，无需全部记住，只需记住具有代表性的函数就可以了，其他的使用的时再查询。所谓函数就是输入某一个值得到相应输出结果的功能。输入值称为参数（parameter）输出值称为返回值；函数算术函数：1）ABS函数：计算绝对值的函数用法：ABS（数值）2）ROUND函数：用来进行...

2018-07-31 00:56:27 294

qq_31807039的博客