前言:早在1980年,著名未来学家托夫勒在其所著的《第三次浪潮》中就热情地将“大数据”称颂为“第三次浪潮的华彩乐章”。2008年9月《自然》杂志推出了名为“大数据”的封面专栏。从2009年开始“大数据”才成为互联网技术行业中的热门词汇。在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。
数据来源
1.业务系统
基于公司的业务系统获取相对的数据,例如大数据下硬件信息数据磁盘,网络,节点存活,带宽等信息。业务系统一般是企业的重要的数据来源,业务系统的数据一般都是格式化以及高质量的。
2.web端页面
基于特定的获取方式指定的网址下结构非结构数据。web系统也会存储各种样式的数据,行为日志,图片,视屏的数据结构并非很格式化。
3.外部系统
获取指定软件的日志数据。类似爬虫获取的公开的数据能够对内部数据做补充,为指标等做数据的铺垫。
4.内部数据库
公司多年积累的客户数据或者订单数据等。
5.人工整理
手动整理的数据。
数据分类
结构化数据:结构化的数据非常规范带有字段以及对应格式的数据。