1亿的图片+视频，雅虎发布超大Flickr数据集

最新推荐文章于 2024-06-02 03:26:00 发布

ciedecem

最新推荐文章于 2024-06-02 03:26:00 发布

阅读量5.4k

点赞数

分类专栏： Hadoop

Hadoop 专栏收录该内容

24 篇文章 0 订阅

订阅专栏

http://www.csdn.net/article/2014-07-07/2820559

雅虎已经发布了一个巨大的数据集为研究人员进行实验。这个数据集由1亿图片和70万视频的URL组成，同时也包含了它们的元数据。在不久的将来，一个更大的包含音频和视频的由超级计算机处理的数据集将能被使用。

Yahoo Flickr Creative Commons当下已有1亿内容，其中包含了9930图片和70万视频的URL以及与之相关的元数据（标题、摄像机类型、描述、标签）。雅虎表示，大约4900万的图片都是地理标记的，各种评论、喜好和社交数据都可以借助Flickr API实现可用。

毫无疑问，对于那些分析图像为了学习新东西或是尝试一些新计算机视觉算法的人来说，这是一个相当可观的资源。新的人工智能算法和技术已经兴起多年，其中大部分算法和技术的灵感来源于访问大量在线图像和视频等方式。然而，一般情况下，对于那些不容易获得内容的研究人员或是公司而言（也就是说，除了谷歌、Facebook、微软和雅虎的其他人），他们不得不通过人工拼凑或其他的方式搜集数据。

据说，尤其是谷歌和雅虎，在各种大数据集贡献上已经颇有建树，尤其是对训练自然语言处理模型非常有用的文本数据。

仅仅为了测试新图像数据集中的一个可能功能，雅虎正在筹备一个比赛，这个比赛能构建无需地理定位就能很容易识别照片和视频拍摄地点的系统。其中，比赛的训练集包括500万的照片和2.5万的视频。

雅虎还与国际计算机科学研究所和Lawrence Livermore国家实验室合作，共同处理一个专用超级计算机（Cray Catalyst，针对数据密集型计算设计）中的数据，并从中提取不同音频及视频特征。雅虎声称的超过50TB的数据集（原始的100万URL图片的数据大约只有12GB）和分析该数据集的工具将会于今年夏季末在亚马逊网络服务器上投入使用。

原文链接： Yahoo releases massive Flickr dataset, and a supercomputer steps up to analyze

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
1亿的图片+视频，雅虎发布超大Flickr数据集

http://www.csdn.net/article/2014-07-07/2820559雅虎已经发布了一个巨大的数据集为研究人员进行实验。这个数据集由1亿图片和70万视频的URL组成，同时也包含了它们的元数据。在不久的将来，一个更大的包含音频和视频的由超级计算机处理的数据集将能被使用。Yahoo Flickr Creative Commons当下已有1亿
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。