PSENet源码阅读笔记

本文详细解读PSENet论文,重点介绍其使用FPN提取特征和C++实现的广度优先搜索算法在文字检测中的应用。在TensorFlow中复现模型,并探讨训练与预测过程,包括pybind11在Python调用C++代码的作用。
摘要由CSDN通过智能技术生成

论文在这里

这篇论文已经有很多人写过解析了,方法就大致说一说就好了。看这篇论文的时候学习了他们代码的实现,感觉学到了很多东西,就在这里讲一讲和代码实现有关的东西。

论文提要

我看的代码,原作者的博客讲了原理方面的内容。首先用FPN在图片中生成“推荐区域”,将“推荐区域”利用广度优先搜索进行合并,得到最后的结果。
论文中主要的东西是,使用FPN提取出图片中不同粗细的可能是文字的部分,然后使用广度优先搜索将FPN得到的几个部分给区分开。

代码实现

复现的论文神经网络部分使用的是tensorflow,广度优先搜索部分使用C++实现。
先从train.py开始看,103行定义了损失函数,在tower_loss函数中,构建了模型。模型的输出seg_maps是一个6通道的tensor,对应了论文中segmentation result。在train.py中没有引用到pse,pse在训练的过程中没有用到。
预测的过程在eval.py中。

# eval.py,第76行
def detect(seg_maps, timer, image_w, image_h, min_area_thresh=10, seg_map_thresh=0.9, ratio = 1)

  • 2
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 11
    评论
评论 11
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值