图片处理1

原帖:http://www.bubuko.com/infodetail-514985.html

最近接触到了一个非常有意思的东西,训练图片,训练结束后,返回对这个图片的描述。

 斯坦福大学建立了一个可以对图像内容产生自然语言描述的模型NaturalTalk,它是一个开源的Python工具,它可以从图像生成文本描述。它实现了Google (Vinyals等,卷积神经网络CNN + 长短期记忆LSTM) 和斯坦福 (Karpathy and Fei-Fei, CNN + 递归神经网络RNN)的算法。它可以从一副图像用递归神经网络(LSTM或RNN)得到一句描述这幅图像的话。
  
  这个项目包含的Python+ numpy的源代码,通过多层递归神经网络从图像生成自然语言描述。
  
依赖:
  
  Python 3.6, numpy, scipy, nltk, argparse得到代码。

  获取的数据。它在repo中不提供。点击打开链接下载data/中的数据,此外,本下载不包括原始图像文件,所以如果你想以可视化的原始图像的注释,你必须获得Flickr8K/ Flickr30K/ COCO的图像并放到相应的数据文件夹。原始图像下载:http://nlp.cs.illinois.edu/HockenmaierGroup/ (要填表)
  
  训练模型。运行python driver.py
  
  监测训练。运行本地Web服务器(如python -m HTTPServer 8080),然后打开http://localhost:8080/monitorcv.html。这个是实时检测的一个功能,
  
  评估模型检查点.。运行python evaluate_sentence_predctions.py+检查点路径。
  
  可视化的预测。使用附带的HTML文件(http://localhost:8080/visualize_result_struct.html)是一个可视化的评估代码生成的JSON结构。可以看到相应的图像和对应的文本描述。
  这里写图片描述
  从上述返回的结果看出,文字基本上可以准确的描述出图片中的内容,对于如何忽略掉背景,环境其他附带的相关因素,获取到中心内容还需要对算法深入学习。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值