大数据基础知识_大数据发展史的三个阶段选自什么书-CSDN博客

本文链接：https://blog.csdn.net/m0_72898076/article/details/128601013

文章目录

前言
一、什么是大数据？
二、大数据发展史
三、大数据的特征
四、大数据的来源
五、大数据处理的流程
六、大数据的技术框架

前言

大数据这个词想必大家都耳熟能详，可是大数据是什么？大数据有哪些特点？大数据的应用？

一、什么是大数据？

大数据是指在一定时间范围内无法用常规软件工具进行捕捉，管理和处理的数据集合；需要新的处理模式，这个处理模式就是大数据。

通俗点讲：数据量大到一定程度，我们用传统的方式无法进行处理了，必须提出新的模式，这模式就是大数据

二、大数据发展史

1.萌芽期: 1980年，未来学家托夫勒在其所著的《第三次浪潮》一书中，首次提出“大数据”一词，将大数据称赞为“第三次浪潮的华彩乐章”。2008年9月，《自然》杂志推出了“大数据”封面专栏。

2.成长期: 2010年2月，肯尼斯·库克尔在《经济学人》上发表了长达14页的大数据专题报告《数据，无所不在的数据》。2012年，牛津大学教授维克托·迈尔·舍恩伯格的著作《大数据时代》开始在国内风靡，推动了大数据在国内的发展。

3.爆发期: 2013，以百度、阿里、腾讯为代表的国内互联网公司各显身手，纷纷推出创新性的大数据应用。2015年9月，国务院发布《促进大数据发展行动纲要》，全面推进我国大数据发展和应用，进一步提升创业创新活力和社会治理水平。

4.大规模应用期:大数据应用渗透到各行各业，大数据价值不断凸显，数据驱动决策和社会智能化程度大幅提高，大数据产业迎来快速发展和大规模应用实施。

三、大数据的特征

在这里插入图片描述

四、大数据的来源

1、交易数据，包括POS机数据、信用卡刷卡数据等；

2、人为数据，包括电子邮件、文档、图片以及通过微信、博客、推特等产生的数据流；

3、机器和传感器数据，如感应器、量表和其它设施的数据。

五、大数据处理的流程

在这里插入图片描述
1.明确数据分析的目的和思路
2.数据收集 (fiume,sqoop)
3.数据处理：提取，清洗，转化，加载 (mapreduce,sqoop)
4.数据分析：统计，建模，挖掘（hive,spark,flink)
5.数据可视化（BI工具）
6.用户

六、大数据的技术框架

在这里插入图片描述
数据传输组件：
1.Kafka是用Scala编写的分布式消息处理平台。
2.Logstash是用JRuby编写的一种分布式日志收集框架。
3.Flume是用Java编写的分布式实时日志采集框架。
4.Sqoop：数据导入导出工具

数据存储组件：
1.HDFS 用Java编写，是谷歌的GFS（Google File S ystem）的一种开源实现。
2.Redis是用ANSIC编写的一种基于内存的Key-Value键值对数据库。
3.HBase是用Java 编写的分布式列式数据库。
4.Hive是用Java编写的，他是建立在Hadoop之上的分布式数据仓库。
5.Elasticsearch是以Apache Lucene为核心打造的分布式全文搜索引擎。

数据计算组件：
1.MapReduce分布式计算框架，是谷歌 MapReduce的一种开源实现。
2.Storm是用Clojure语言编写的分布式实时流处理系统。
3.Spark是用Scala语言编写的分布式计算框架
4.Flink是一个开源流处理框架，其核心是用Java和Scala编写的分布式流数据流引擎

其他组件：
1.Zookeeper：分布式协调服务基础组件，专职负责统一调度整个系统的资源，发布任务，协调各个组件之间的运行。ZooKeeper的存在，使得分布式的系统在协调运作上得到的保证。