初识大数据 小孩子都懂的大数据

1、大数据概述

传统数据处理介绍

目标: 了解大数据到来之前,传统数据的通用处理模式。

数据来源:

1、企业内部管理系统 ,如员工考勤(打卡)记录。

         2、客户管理系统(CRM)

数据特征:

         1、数据增长速度比较缓慢,种类单一。

         2、数据量为GB级别,数据量较小。

数据处理方式:

1、数据保存在数据库中。处理时以处理器为中心,应用程序到数据库中检索数据再进行计算(移
动数据到程序端)

遇到的问题:

         1、数据量越来越大、数据处理的速度越来越慢。

         2、数据种类越来越多,出现很多数据库无法存储的数据,如音频、照片、视频等。

 

2、什么是大数据?(Big Data)

目标:掌握什么是大数据、传统数据与大数据的对比有哪些区别、大数据的特点

 

是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

 

是指一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。

 

数据的存储单位

最小的基本单位是bit

1 Byte =8 bit

1 KB = 1,024 Bytes = 8192 bit

 

KB à MB à GB à TB àPB à EB à ZB àYB à BB àNBà DB  进率1024

 

 

3、传统数据与大数据的对比

 

4、大数据的特点

数据集主要特点

Volume(大量):  数据量巨大,从TB到PB级别。

Velocity(高速):       数据量在持续增加(两位数的年增长率)。

Variety(多样):       数据类型复杂,超过80%的数据是非结构化的。

Value(低密度高价值):  低成本创造高价值。

其他特征

数据来自大量源,需要做相关性分析。

需要实时或者准实时的流式采集,有些应用90%写vs.10%读。

数据需要长时间存储,非热点数据也会被随机访问。

传统数据与大数据处理服务器系统安装对比

目标:了解传统数据与大数据处理服务器系统安装有什么不同

 详细解释请见PPT《大数据素材》中的“传统数据与大数据处理服务器系统安装对比”

传统数据下服务器系统安装

在传统数据背景下,服务器系统安装中,系统硬盘、数据硬盘完全隔离。通常会将多块数据硬盘制作成LVM(逻辑卷),即将多块物理硬盘通过软件技术“拼接”在一起形成一个大的硬盘(逻辑上是一个硬盘)。

 

大数据下服务器系统安装

在大数据背景下,服务器系统安装中,系统硬盘、数据硬盘完全隔离。数据硬盘必须独立挂载,每个硬盘挂载到系统的一个独立的目录下。

 

5、大数据生态系统

目标:了解大数据生态系统,大数据技术列举

大数据:历史数据量逐渐攀升、新型数据类型逐渐增多。是企业必然会遇到的问题

新技术:传统方式与技术无法处理大量、种类繁多的数据,需要新的技术解决新的问题。

技术人员:有了问题,有了解决问题的技术,需要大量懂技术的人解决问题。

最佳实践:解决 问题的方法,途径有很多,寻找最好的解决方法。

商业模式:有了最好的解决办法,同行业可以复用,不同行业可以借鉴,便形成了商业模式。

新技术

HADOOP

 

                   HDFS:       海量数据存储。

                   YARN:       集群资源调度。

                   MapReduce:    历史数据离线计算。

        

Hive:海量数据仓库。   

         Hbase:海量数据快速查询数据库。

         Zookeeper:集群组件协调。

Impala:是一个能查询存储在Hadoop的HDFS和HBase中的PB级数据的交互式查询引擎。

Kudu:是一个既能够支持高吞吐批处理,又能够满足低延时随机读取的综合组件

         Sqoop:数据同步组件(关系型数据库与hadoop同步)。

         Flume :海量数据收集。

Kafka:消息总线。

Oozie:工作流协调。

Azkaban: 工作流协调。

Zeppelin:  数据可视化。

Hue: 数据可视化。

Flink:实时计算引擎。

Kylin: 分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析。

Elasticsearch: 是一个分布式多用户能力的全文搜索引擎。

Logstash: 一个开源数据搜集引擎。

Kibana: 一个开源的分析和可视化平台。

 

SPARK

                   SparkCore:Spark 核心组件

SparkSQL:高效数仓SQL引擎

Spark Streaming: 实时计算引擎

Structured: 实时计算引擎2.0

Spark MLlib:机器学习引擎

Spark GraphX:图计算引擎

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
初识⼤数据(五 初识⼤数据(五.⼤数据平台基本架构) ⼤数据平台基本架构)   ⼤数据开发,并不仅仅只是⼀两个组件的简单堆砌,⽽是需要按照实际的数据量、数据种类以及实际业务的需要进⾏⼤量的调优和⼆次 开发,构成⼀个有机的整体,这样才能保证⼤数据平台的正常⾼效的运⾏。 ⼀. 以下是⼀个⼤数据平台的基本组成图: 1. 硬件环境: 1) X86架构廉价服务器集群:hadoop技术栈是架构在这种服务器上的,所以价格低,横向可扩展性强。 2) GPU服务器集群:如果需要⽤到机器学习算法,可能使⽤GPU服务器集群。 2. ETL:对各种类型的数据采集与清洗,跟据不同的数据类型选择不同的组件或者数据采集⽅法,⽐如⽤Python编写采集或清洗数据。 3. 数据存储:将采集清洗或处理好的数据存储在⼤数据存储器中。 4. 数据计算: 1) 实时计算:对亿条流数据实时进⾏计算。⽐如志管理、消息队列等。 2) 离线计算:对海量数据进⾏计算,特点是:数据量巨⼤,维度多。 5. 数据分析:对处理好的数据进⾏交互式分析,主要是⽤SQL语⾔进⾏数据的分析。 6. 资源管理:对资源进⾏调度和管理,其中包括:内存、CPU、存储等资源。 7. 数据管理:对数据进⾏安全、质量、权限等的管理以及⼯作流的管理和元数据治理。 8. 运维监控:对hadoop集群、⽣态圈组件进⾏运维、管理和监控。 ⼆.⼤数据开发应具备的基本技能: 1. 精通java、python、scala开发 2. 精通linux使⽤ 3. 精通SQL开发 4. 具有开源代码的阅读能⼒ 5. 熟悉各种组件的使⽤

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值