大数据基础知识


前言

大数据这个词想必大家都耳熟能详,可是大数据是什么?大数据有哪些特点?大数据的应用?


一、什么是大数据?

大数据是指在一定时间范围内无法用常规软件工具进行捕捉,管理和处理的数据集合;需要新的处理模式,这个处理模式就是大数据。

通俗点讲:数据量大到一定程度,我们用传统的方式无法进行处理了,必须提出新的模式,这模式就是大数据

二、大数据发展史

1.萌芽期: 1980年,未来学家托夫勒在其所著的《第三次浪潮》一书中,首次提出“大数据”一词,将大数据称赞为“第三次浪潮的华彩乐章”。2008年9月,《自然》杂志推出了“大数据”封面专栏。

2.成长期: 2010年2月,肯尼斯·库克尔在《经济学人》上发表了长达14页的大数据专题报告《数据,无所不在的数据》。2012年,牛津大学教授维克托·迈尔·舍恩伯格的著作《大数据时代》开始在国内风靡,推动了大数据在国内的发展。

3.爆发期: 2013,以百度、阿里、腾讯为代表的国内互联网公司各显身手,纷纷推出创新性的大数据应用。2015年9月,国务院发布《促进大数据发展行动纲要》,全面推进我国大数据发展和应用,进一步提升创业创新活力和社会治理水平。

4.大规模应用期:大数据应用渗透到各行各业,大数据价值不断凸显,数据驱动决策和社会智能化程度大幅提高,大数据产业迎来快速发展和大规模应用实施。

三、大数据的特征

在这里插入图片描述

四、大数据的来源

1、交易数据,包括POS机数据、信用卡刷卡数据等;

2、人为数据,包括电子邮件、文档、图片以及通过微信、博客、推特等产生的数据流;

3、机器和传感器数据,如感应器、量表和其它设施的数据。

五、大数据处理的流程

在这里插入图片描述
1.明确数据分析的目的和思路
2.数据收集 (fiume,sqoop)
3.数据处理:提取,清洗,转化,加载 (mapreduce,sqoop)
4.数据分析:统计,建模,挖掘(hive,spark,flink)
5.数据可视化(BI工具)
6.用户

六、大数据的技术框架

在这里插入图片描述
数据传输组件:
1.Kafka是用Scala编写的分布式消息处理平台。
2.Logstash是用JRuby编写的一种分布式日志收集框架。
3.Flume是用Java编写的分布式实时日志采集框架。
4.Sqoop:数据导入导出工具

数据存储组件:
1.HDFS 用Java编写,是谷歌的GFS(Google File S ystem)的一种开源实现。
2.Redis是用ANSIC编写的一种基于内存的Key-Value键值对数据库。
3.HBase是用Java 编写的分布式列式数据库。
4.Hive是用Java编写的,他是建立在Hadoop之上的分布式数据仓库。
5.Elasticsearch是以Apache Lucene为核心打造的分布式全文搜索引擎。

数据计算组件:
1.MapReduce分布式计算框架,是谷歌 MapReduce的一种开源实现。
2.Storm是用Clojure语言编写的分布式实时流处理系统。
3.Spark是用Scala语言编写的分布式计算框架
4.Flink是一个开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎

其他组件:
1.Zookeeper:分布式协调服务基础组件,专职负责统一调度整个系统的资源,发布任务,协调各个组件之间的运行。ZooKeeper的存在,使得分布式的系统在协调运作上得到的保证。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值