在大会第三天上午的“大数据价值发现”的主场上,来自百度资深研发工程师牛正雨先生为我们分享互联网图片数据的挖掘与应用。互联网的内容主流和用户交流媒介,已经出现从文字转向图片的趋势,标志着互联网进入"读图时代"。在"读图时代"的大背景下,牛正雨向介绍百度在图片数据的挖掘以及知识提取方面取得的一些技术进展,并探讨图片数据挖掘过程中遇到的技术挑战,以及图片知识信息在搜索引擎中的应用前景。
图片挖掘概述
为什么要做图片挖掘?牛正雨表示,可以从两个方面来谈,外因是互联网已进入“读图时代”,信息载体和用户交流媒介已经从文字转变到了图片,图片便于网站内容、用户交流;内因是产品变革带来的需求,交互方式便于输入、展现。
用户对于图片的需求,越来越多人开始从搜索文字到搜索图片,原因是移动端输入不便,信息表达瓶颈,搜索图片带来的好处是可以便于用户快速获取信息,还可以吸引点击。
挖掘技术详解
谈及图片的挖掘技术,牛正雨首先要谈谈图片挖掘的目标,我们需要挖掘出挖掘图片自身特征,包括语义特征(图片的关键词标注等)、质量特征(低质图片识别,色情图识别等); 挖掘图片与其他数据的关联,包括图片与图片(识别相同图片,套图识别)、图片与网页(识别网页中的代表性图片)、图片与实体(为实体义项配图)。
关于图片数据的特点,主要包括数据规模:已在万亿量级并且在快速增长(挑战:兼顾算法的效果与效率)、数据形态: 图片数据与网页信息并存(挑战:如何利用网页信息辅助图片分析)数据质量:图片质量良莠不齐(挑战:如何自动预测/计算图片质量)。
图片挖掘展望
谈及未来发展,牛正雨表示未来支持数据建模建立图片知识库,支持用户的任务与决策支持购物、决策等,支持数据建模,分析图片重要属性,形成结构化数据,建立面向图片的知识库,并与实体知识库关联,支持用户的任务与决策,分析看图背后的需求:购物、决策等,满足用户的需求。
最后牛正雨总结道,图片挖掘概述:图片已成为主流信息载体;挖掘技术详解:大部分技术问题已解决;图片挖掘展望:深挖图片知识/支持用户任务;面临的技术挑战:图片知识挖掘。