Detecting Oriented Text in Natural Images by Linking Segments：SegLink实现图像内文档识别的github代码复现实践笔记

最新推荐文章于 2024-04-18 22:40:56 发布

jiachen0212

最新推荐文章于 2024-04-18 22:40:56 发布

阅读量1.5k

点赞数 2

分类专栏：深度学习图像处理文章标签： SegLink 文档识别

本文链接：https://blog.csdn.net/jiachen0212/article/details/79471823

版权

深度学习图像处理专栏收录该内容

3 篇文章 0 订阅

订阅专栏

如标题，这篇博文只是我按照github上无私的大神开源代码后，然后我在自己的环境下复现出来的实践笔记，全当自己记录踩过的坑...

paper : Detecting Oriented Text in Natural Images by Linking Segments

github地址：https://github.com/dengdan/seglink

paper实现把文本行框出来，并没有进行识别... 以下开始操作：...

1. 首先把model之类的下载好，按照大神给好的说明放到自己本地对应的位置。

然后是这一步，我当时还卡了一会不知道怎么操作，可以看这里：点击打开链接

3. 然后是测试自己的图片，给出的命令说明是这样的：

./scripts/test.sh 0 ~/models/seglink/model.ckpt-217867  ~/dataset/ICDAR2015/Challenge4/ch4_training_images

但其实，我们是需要在最前面再加上：sh 的...

sh ./scripts/test.sh 0 ~/modelpath.../model.ckpt-xxx  /testimgpath.../

然后，我遇到的问题是：points = cv2.cv.BoxPoints(bbox)这里。

这是因为opencv的版本不同问题。我的环境是3，大神开源的是2。不用急着立马去配一个2，我百度试了试这一句，改成对应3版本的形式：points = cv2.boxPoints(bbox)

然后再sh test.sh文件，通过了.. 哈哈还好只有这一个地方冲突的...

然后就生成了识别图像中的文档的坐标信息，如下：

4. 可视化结果：按照大神的说明，改成自己的路径即可：

python visualize_detection_result.py \

    --image=~/dataset/ICDAR2015/Challenge4/ch4_training_images/ \

    --det=~/models/seglink/seglink_icdar2015_without_ignored/eval/icdar2015_train/model.ckpt-72885/seg_link_conf_th_0.900000_0.700000/txt \
    --output=~/temp/no-use/seglink_result_512_train

这里唯一注意的就是每一行的等号之间不要自己去加空格哈...