- 博客(130)
- 资源 (2)
- 收藏
- 关注
原创 ppocr方向分类器记录
该代码实现了图像预处理流程:1)将输入图像高度缩放到48像素,宽度等比缩放;2)若缩放后宽度超过192则截断为192;3)对图像进行归一化处理(/255后减0.5除0.5);4)当宽度不足192时进行右侧零填充。处理后的图像格式为(1,3,48,192)的float32张量,适用于分类模型输入。预处理保留了图像原始比例,同时确保输出尺寸统一。
2025-07-28 17:11:23
180
原创 paddlepaddle模型转onnx
本文介绍了使用paddle2onnx.export方法将PaddlePaddle模型转换为ONNX格式的经验。作者发现网上推荐的paddle.onnx.export和paddle2onnx.convert方法在Windows平台上存在问题,而直接使用paddle2onnx.export则可以完美解决。该方法需要指定模型文件(inference.pdmodel)和参数文件(inference.pdiparams),并支持设置opset版本、自动升级opset、优化等参数。特别提醒需要使用export_mode
2025-07-22 11:03:17
262
原创 ppocr训练自己的分类器(多方向)
PaddleOCR默认分类器仅支持0度和180度识别,但实际场景常需识别0°、90°、180°、270°四种角度。为此需修改模型网络结构,调整label_list和class_dim参数(类别数量)。数据格式为"路径\t类别",训练方法与det/rec模型类似,可参考相关文档。
2025-07-21 14:04:58
255
原创 parameter name [fc_0.w_0] have be been used. In dygraph mode, the name of parameter can‘t be same.Pl
摘要:在PaddleOCR训练分类器时出现参数名重复错误"parametername[fc_0.w_0]havebebeenused"。该问题是由于动态图模式下参数名称必须唯一,而fc_0.w_0已被使用。解决方法为全局搜索fc_0.w_0并注释相关代码。此错误通常在训练分类器并进行export导出操作时出现,需要注意网络结构中参数名的唯一性。
2025-07-21 13:39:14
219
原创 The shape of model params head.ctc_head.fc.weight [120, 6624] not matched with loaded [120, 6625]
摘要:使用PP-OCRv4中文识别预训练模型训练时出现维度不匹配警告(6624 vs 6625),导致FC层无法加载,训练效果差于原模型。经排查发现是因yaml文件中use_space_char参数设为false(不训练空格字符)导致字典维度少1。解决方法是将该参数改为true,使训练字符数与预训练模型保持一致。
2025-07-19 11:28:36
249
原创 Windows系统下GroundingDINO的安装2025(踩无数坑)
本文介绍了在Windows10系统下配置GroundingDINO开发环境的详细步骤。主要包含:1)使用conda创建Python3.8虚拟环境;2)安装特定版本的CUDA12.4、torch2.4.0和torchvision0.19.0;3)从GitHub下载GroundingDINO代码并编译安装。重点提示了版本兼容性的重要性,以及安装过程中可能遇到的常见问题(如_C未定义错误、VS编译器版本要求等),建议使用VS2017-2022版本并检查虚拟环境的VS运行时版本。
2025-07-11 18:14:21
1462
3
原创 mmrotate训练自己的数据(记录)
config表示旋转使用哪种模型算法进行训练,这里使用的是rotated_faster_rcnn_r50_fpn_1x_dota_le90.py,可以根据自己的要求进行选择使用。(2)训练数据格式分布如下:images文件夹里是图片,labels文件夹里是对应的txt文件。(1)一般是使用rolabelimg来标注,使用rolabelimg标注生成的是xml文件,但训练的时候使用的是txt文件。(6)训练图片格式修改,默认的代码只支持png格式的图片,在此处进行修改。(5)训练epoch设置。
2025-04-10 22:00:00
481
原创 YoloV11训练自己的训练集
(2)加载官方的预训练模型的话,它训练的imgsz是从官方的预训练模型里加载,所以如果在model.train的时候不设置imgsz的话,默认就是640,即使修改yaml文件的imgsz,还是会被640覆盖。(1)V11的超参数保存在cfg下的default.yaml文件,模型所需要的超参数会从那边获取。训练需要准备的东西:(1)数据集的yaml文件 (2)预训练模型。(1)yaml文件里的path输入的是训练数据集所在目录。训练完之后模型文件会保存在代码目录下的run文件夹里。
2024-12-13 11:29:01
285
原创 深度学习模型训练记录
(1)情况1:预训练权重是基于1000个类别进行训练的,而自己的数据只有几十类。解决方法:在加载权重的时候不加载最后的全连接层。
2024-12-03 10:42:31
146
原创 PPOCRV4用predict_det.py推理有结果用predict_system.py推理没结果
原因:rec模型效果太差,导致识别出来的阈值太低。在predict_system.py代码中,如果识别模型的得分太低,则不会将检测框绘制出来,所以就看不到结果。
2024-11-21 10:26:22
427
原创 解决PPOCRV4检测框比实际检测目标大
unclip_ratio参数可以调整输出检测框的大小,默认值是1.5所以检测框比目标大,改成1.0。修改Det训练时对应的yaml文件:例如 ch_PP-OCRv4_det_cml.yml。
2024-11-21 10:22:45
624
原创 load library failed: libnvidia-ml.so.1: cannot open shared object file: no such
原因:安装docker的时候勾选的是Hyper-V而不是WSL,重新安装docker desktop的时候勾选WSL就解决了。具体原因还是不太清楚,可能是wsl对于驱动的支持比Hyper-V更好。Windows系统在使用docker创建容器加载Gpu的时候报这个错误,显示找不到该文件,但查看本地又有这个文件。
2024-11-08 11:16:41
808
原创 Docker 操作指令
docker run -it --name 容器名称 -v 本地磁盘路径:/容器内部路径 镜像名称。8.如果已经创建了容器,可以把本地文件复制到容器内(要先启动容器)docker run -it --name 容器名称 镜像名称。7.挂载本地磁盘到docker工作目录(在创建容器的时候挂载)docker cp 本地文件路径 容器id:/容器内部路径。6.删除容器(如果容器在运行的话要先停止)3.创建容器(一个镜像可以创建多个容器)docker stop 容器名称。docker rm 容器名称。
2024-11-08 10:42:47
487
原创 windows环境下配置Mamba所需的库
解决在windows环境下安装mamba_ssm以及causal_conv等库经常出bug的问题,使用编译好的whl文件,下载即可直接使用。方便上手,减少配置环境所消耗的不必要时间
2024-09-13 10:48:42
452
原创 Visual Studio配置opencv环境
(4)配置链接器(如果配置的是debug模式则输入结尾为****d.lib的, 如果是release模式则去掉d,我的opencv版本是480,需要根据自己版本进行修改)(2)配置opencv的include和opencv2路径,具体路径和版本根据自己电脑配置。(1)打开属性页面(鼠标放在解决方案上,点击右键会有一个属性选项弹出)(3)配置opencv的lib文件(库目录)(5)测试代码(图片路径自行修改)
2024-09-13 10:23:21
602
原创 CMake学习记录一(windows)
自动搜索可能需要的程序、库和头文件的能力;独立的构建目录(如build),可以安全清理支持复杂的自定义命令(下载、生成各种文件)自定义配置可选组件从简单的文本文件()自动生成工作区和项目的能力在主流平台上自动生成文件依赖项并支持并行构建几乎支持所有的ID。
2024-08-14 17:14:03
524
原创 VSCode在windows系统下编译动态链接库不生成Lib文件
这句话放在前面才可以生成lib文件,放在最后面不会生成lib。解决方法:在CMakeLists.txt文件加入。
2024-08-14 11:46:11
606
原创 目标检测之单类别NMS
在目标检测中,常见的是多类别NMS,也就是只对相同类别的boxes来计算IOU;但现实场景中经常遇到同一个物体被识别成2个类别,也就是模型认为它既是类别1也是类别2.这时候通过多类别nms就过滤不掉这种重叠的框。在官方的代码中已经有boxes, class_probs, nms_threshold这三个参数的输出,我们只需把它传入上面的函数就可以了。在官方yolo的基础上修改代码如下(注释掉的是官方原始的代码)这个函数的三个输入参数分别是:模型检测得到的框(x,y,w,h)、 每个框的得分、nms阈值。
2024-07-15 21:32:22
484
原创 tensorrt动态batch推理注意事项
Pt文件转onnx文件再转engine文件需要注意的事项,tensorrt处理一个batch的数据
2024-06-26 16:24:55
648
5
原创 onnx转openvino模型(2022版本和2024版本)
网上很多方法都是用openvino自带的mo_onnx.py来转的,但个人下载的2022和2024版都没见到这些文件。(2)2024版openvino: python安装openvino2024的库,和2022的区别在于接口变了.(1)2022版openvino:python需要安装对应版本的openvino库(以2022.3.0为例)
2024-06-18 13:24:14
947
原创 ValueError: Expect x to not have duplicates
报错原因:scipy版本问题,将1.10.1版本降为1.7.1就可以解决了。
2024-06-12 10:25:34
770
原创 Pytorch语义分割(2)--------模型搭建
经典的模型还是Unet,也可以使用torch自带的unet来训练,但为了更好地了解,还是选择自己搭建。
2024-06-06 11:31:47
403
原创 OSError: Can t load tokenizer for bert-base-chinese . If you were trying to load it from
所需下载的文件地址:https://pan.baidu.com/s/1trIXxXzqaYXoyJZaSQ11hA?,看网上分析说是连接不上外网导致的,需要科学上网。但使用科学上网也会发生其他类型的错误,索性就直接将模型下载到本地。背景:使用hugging face 中的。
2024-06-05 10:15:47
1052
原创 Pytorch语义分割(1)-----加载数据
在语义分割中用到的数据无非就是原始图片(image)和标注后得到的mask图片,所以在读取数据的时候只要返回图片和标签信息就OK 了。
2024-06-04 20:31:25
521
原创 根据坐标进行排序
分享一个简单的坐标排序,可用于yolo输出的boxes进行排序。此排序适用于倾斜角度不大的情况,如果文本倾斜过多,排序结果可能有问题。
2024-05-27 21:38:22
320
原创 urllib.error.URLError: <urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed:
解决方法:
2024-05-14 13:34:22
131
原创 PaddleOCRv4训练自己的模型(5)-------自带的标注软件的坑
解决方法:标注完多边形之后,点击界面右上角的重新识别,然后重启软件。再打开就会发现标注变多了,然后将自己开始标注的删掉,只留下重新识别后生成的标注。比如下面这张图,多边形标注完之后,再导出识别结果,在crop_img文件夹里面却没有。可以发现重新生成的标注都是矩形或斜矩形,这时候再导出识别结果就会在crop_img里面存图了。1.默认读图方式是cv2.imread(),不支持中文路径,所以标注的文件夹最好不要有中中文。原因:ppocr只支持矩形或斜矩形的标注方式。但软件又没有斜矩形标注。
2024-05-11 08:35:40
558
原创 PaddleOcrV4 使用ch_PP-OCRv4_det_cml.yml训练报错
报错原因是因为在这个yml文件里有两个Student的网络是PPLCNetNew,但在主干网络里面没有这个网络,所以报错。解决方法:把PPLCNetNew改成PPLCNetV3,然后再加 det:true。还有一个Student2也是同样修改。
2024-04-21 23:40:18
1203
原创 PaddleOCRV4训练自己的模型(4)------模型推理及导出
(2)配置运行参数,这个py文件在代码里面的rec_char_dict_path参数默认是./ppocr/utils/ppocr_keys_v1.txt,用cmd窗口跑的话可能没问题,但是用pycharm来跑的话会报错找不到这个文件。(1)在训练Rec的时候是只对文字部分进行训练的,推理的时候如果输入整图,推理时间可能会增加,效果可能也会下降(没测试过) infer_rec.py的输出结果是一个TXT文件,一行对应每一张图的输出结果。因为训练定位模型的时候是整图训练,所以推理的时候也是整图推理。
2024-04-21 23:29:35
3184
11
原创 PaddleOCR训练自己的模型(3)-----模型推理
(1)Det模型推理: 打开infer_det.py文件, 配置运行参数((2)Rec模型推理:打开infer_rec.py文件, 配置参数。运行完之后输出结果会保存在。
2024-04-18 23:22:13
867
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人