大数据的概念
大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
主要解决:海量数据存储和海量数据的分析计算问题
大数据的特点
大数据特性,谨记四字箴言:「大、快、杂、疑」
1、Volume(大)
资料量非常大,以前人们「手动」在表格中记录、累积出数据;现在数据是由机器、网路、人与人之间的社群互动来生成。你现在正在点击的滑鼠、来电、简讯、网路搜寻、线上交易… 都正在生成累积成庞大的数据。截止目前人类生产的所有印刷材料是200PB(Peta Bytes,千兆位元组),历史上人类总共说过的话数据量约5EB(Exabytes,百万兆位元组)。
2、Velocity(快)
响应的时效性至关重要,据IDC“数字宇宙”报告,预计到2020年,全球数据使用量将达到35.2ZB(Zetta Bytes,十万亿亿字节),如此海量数据,处理效率至关重要。
3、Variety(杂)
大数据的来源种类包罗万象,十分多样化,如果一定要把资料分类的话,最简单的方法是分两类,结构化与非结构化。早期的非结构化资料主要是文字,随着网路的发展,又扩展到电子邮件、网页、社交媒体、视讯,音乐、图片等等,这些非结构化的资料造成储存(storage)、探勘(mining)、分析(analyzing)上的困难。
4、Value(疑)
价值密度的高低与数据总量的大小成反比。以视频为例,一部1小时的视频,在连续不间断的监控中,有用数据可能仅有一二秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。
大数据能干啥?
例1: o2o–百度大数据+平台,通过先进的线上线下打通技术和客流分析能力,助力商家精细化运营,提升销量。
例2: 美国折扣零售商能够通过用户购买商品的历史,判断出是否怀孕。
例3: 日本通过研究驾驶员的坐姿数据,用来作为汽车防盗系统中。