大数据基础了解

1、概念及意义

  2011年5月,麦肯锡研究院发布报告,第一次对大数据做出相对清晰的定义:“大数据是指起大小超过了常规数据库工具获取,储存,管理和分析能力的数据集。”

  2015年8月,国务院《促进大数据发展行动纲要》指出:容量大、类型大,存储速度快、应用价值高为主要特征的数据集合,正快速发展为对数量巨大,来源分散,格式多样的数据进行采集,存储,和关联分析,从中发现新知识,创造价值,提升新能力的新一代信息技术和服务业态。

 无论业界和政府如何定义“大数据”概念,大数据内在特质不变。当今,业界普遍认为:大数据存在“4V”特征:

 Volume(体量大),Variety(种类多),Velocity(速度快),Value(价值高)

2.大数据的技术支持

  1.存储:存储成本下降。在云计算出现之后,数据存储服务衍生了新的商业模式,数据中心的出现降低了公司的计算和存储成本。

  2.计算:运算数据越来越快。分布式系统基础架构Hadoop的出现,为大钟寺的数据提供并行打算,HDFS为海量数据提供存储,Mapreduce则为海量的数据提供并行运算,大大提高了计算效率,同时,Spark,Storm,Impala等各种技术也进入人们的视野海量数据从原始鼠标到产生价值,期间会经过存储,清洗,挖掘,分析等多个环节,如果计算速度不够快,很多事情无法实现。 

  3.智能:机器拥有理解数据的能力。

3.大数据的意义

  1.特征:(1)要全面,不要抽样,(2)要混杂,不要精确,(3)要相关,不要因果。

4.大数据的来源:

  1.按产生数据的主体划分:少量企业产生的数据;大量人产生的数据;巨量机器产生的数据   

  2.按数据来源的行业划分:以BAT为代表的互联网公司;电信、金融、保险、电力、石化系统;公共安全,医疗,交通领域;气象,地理,政务等领域;制造业和其他传统行业。

  3.按数据存储的形式划分:大数据不仅体现在数据量大,还体现在数据类型多,如此海量数据中,仅有20%左右的属于结构化数据,80%的数据属于广范用于社交网络,物联网,电子商务等领域的非结构化数据

  结构化数据简单来说就是数据库,如企业ERP、财务系统、医疗HIS数据库,教育一卡通,政府行政审批,其他核心数据库等数据。非结构化数据包裹所有格式的办公文档,文本,图片,XML,HTML,各类报表,图像和音频,视频等数据

5.大数据常用的获取途径

1.系统日志采集:可以使用海量的数据采集工具,用于系统日志采集,如Hadoop的Chukwa,Cloudera的Flume,Facebook的Seribe,这些工具均采用分布式架构,能满足大数据的日志数据采集和传输需要

2.互联网数据采集:通过网络爬虫或网络公开API等方式从网站上获取数据信息,该方法可以吧数据从网页中抽取出来,将其存储为统一的本地数据文件,

3.APP移动端数据采集

4.与数据服务机构进行合作

  

没有更多推荐了,返回首页