【TensorFlow】im2txt — 将图像转为叙述文本

完整项目已上传 Github —— im2txt
模型需要单独下载,Github 免费版不能上传大于100M的文件

1. 下载 im2txt

tensorflow/models 下面有很多模型,但是我们只需要 im2txt,不过在 Github 上面下载子文件夹有点麻烦,所以还是下载整个 models,也许以后会用到其他的模型:

git clone https://github.com/tensorflow/models.git

下载好了之后将 models/research/im2txt/im2txt 文件夹复制到你的工作区。

2. 安装必要的包

首先按照 Github 上 im2txt 的说明,安装所有必需的包:

3. 下载模型和词汇

如果要自己训练模型,按照官网的说法,需要先下载几个小时的数据集,然后再训练1~2周,最后还要精调几个星期。

训练要花不少时间,所以用训练好的模型,下载地址是:

下载之后放在im2txt/model文件夹下:

im2txt/
    ......
    model/
        graph.pbtxt
        model.ckpt-2000000
        model.ckpt-2000000.meta

同时下载包含词语的文件 word_counts.txt,下载好之后放在 data 文件夹下:

im2txt/
    ......
    data/
        ......
        word_counts.txt

4. 编写脚本

在 im2txt 文件夹下新建一个 run.sh 脚本文件,输入以下命令:

CHECKPOINT_PATH="${HOME}/im2txt/model/train"
VOCAB_FILE="${HOME}/im2txt/data/mscoco/word_counts.txt"
IMAGE_FILE="${HOME}/im2txt/data/mscoco/raw-data/val2014/COCO_val2014_000000224477.jpg"

bazel build -c opt //im2txt:run_inference

bazel-bin/im2txt/run_inference \
  --checkpoint_path=${CHECKPOINT_PATH} \
  --vocab_file=${VOCAB_FILE} \
  --input_files=${IMAGE_FILE}

其中的变量用自己的路径代替,比如我当前设置的路径:

CHECKPOINT_PATH="/home/w/workspace/tensorflow-space/tensorflow-gpu/practices/im2txt/model/model.ckpt-2000000"
VOCAB_FILE="/home/w/workspace/tensorflow-space/tensorflow-gpu/practices/im2txt/data/word_counts.txt"
IMAGE_FILE="/home/w/workspace/tensorflow-space/tensorflow-gpu/practices/im2txt/data/images/1.jpg"

bazel build -c opt run_inference

bazel-bin/im2txt/run_inference \
  --checkpoint_path=${CHECKPOINT_PATH} \
  --vocab_file=${VOCAB_FILE} \
  --input_files=${IMAGE_FILE}

5. 运行脚本

将当前工作目录设置为 im2txt,设置脚本的权限:

sudo chmod 777 run.sh

然后将工作目录设置为 im2txt 的上层目录,运行脚本:

./im2txt/run.sh

输出结果如下,感觉结果还不错:

  • 10
    点赞
  • 39
    收藏
    觉得还不错? 一键收藏
  • 44
    评论
Im2latex是一种将图像换为LaTeX代码的技术。LaTeX是一种用于排版科技文档的标记语言,它具有强大的数学公式排版功能。然而,对于不熟悉LaTeX的人来说,编写数学公式可能是一个繁琐的过程。 Im2latex通过使用深度学习和计算机视觉算法,可以将输入的数学公式图像换为相应的LaTeX代码。它的工作原理是将图像分解为其基本元素,如数学符号和运算符,然后将它们映射到LaTeX代码。这样,用户就不需要手动输入和编辑LaTeX代码来排版数学公式,从而大大提高了工作的效率和准确性。 使用Im2latex可以帮助学生、研究者和教师更方便地生成和编辑复杂的数学公式。他们只需要拍摄数学公式的照片或将其上传到Im2latex的网站或应用程序中,然后就可以获取相应的LaTeX代码。这使得在科研论文、学术报告和数学教学中使用数学公式变得更加容易。 然而,Im2latex仍然有一些挑战。由于数学公式的复杂性和多样性,准确识别和换所有类型的数学公式仍然是一个困难的问题。此外,对于涉及手写数学公式的图像,Im2latex的准确性可能会受到书写风格和字体选择的影响。 总的来说,Im2latex是一种将图像换为LaTeX代码的有用工具。它可以帮助用户更轻松地生成和编辑数学公式,为科研和教学工作提供便利。随着深度学习和计算机视觉技术的发展,我们相信Im2latex将继续改进和完善,成为更实用的工具。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 44
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值