SynthText 开源项目教程-CSDN博客

本文链接：https://blog.csdn.net/gitblog_00798/article/details/141078457

SynthText 开源项目教程

SynthTextCode for generating synthetic text images as described in "Synthetic Data for Text Localisation in Natural Images", Ankush Gupta, Andrea Vedaldi, Andrew Zisserman, CVPR 2016.项目地址:https://gitcode.com/gh_mirrors/sy/SynthText

项目介绍

SynthText 是一个开源的 Python 项目，旨在生成模拟真实场景中的文本图像，以供自然图像中文本检测和识别任务的数据增强使用。该项目由 Ankush Gupta 等人在 CVPR 2016 上发表的论文 "Synthetic Data for Text Localisation in Natural Images" 中提出。SynthText 数据集包含 858,750 张图像，每个图像带有多个文本实例，数据集提供词级和字符级边界框以及对应文本，旨在促进场景文字检测和识别的研究。

项目快速启动

环境准备

确保你的环境中安装了以下依赖：

Python 2.x（项目主分支）或 Python 3.x（python3 分支）
pygame==2.0.0
opencv-python
PIL (Pillow)
numpy
matplotlib
h5py
scipy

安装步骤

克隆项目仓库：

git clone https://github.com/ankush-me/SynthText.git
cd SynthText

下载渲染数据：

wget https://url-to-renderer-data.zip
unzip renderer-data.zip

生成样本：

python gen.py --viz [--datadir <path-to-dowloaded-renderer-data>]

代码示例

以下是一个简单的代码示例，展示如何生成合成文本图像：

import os
from synthgen import Renderer

# 设置数据目录
data_dir = 'path-to-renderer-data'

# 初始化渲染器
renderer = Renderer(data_dir, max_time=500)

# 生成样本
renderer.render_text(viz=True)