初识大数据小孩子都懂的大数据

最新推荐文章于 2023-07-07 14:44:20 发布

唔_Yxy

最新推荐文章于 2023-07-07 14:44:20 发布

阅读量891

点赞数

文章标签：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/L15593445790/article/details/103135591

版权

1、大数据概述

传统数据处理介绍

目标： 了解大数据到来之前，传统数据的通用处理模式。

数据来源:

1、企业内部管理系统 ,如员工考勤（打卡）记录。

2、客户管理系统（CRM）

数据特征：

1、数据增长速度比较缓慢，种类单一。

2、数据量为GB级别，数据量较小。

数据处理方式：

1、数据保存在数据库中。处理时以处理器为中心，应用程序到数据库中检索数据再进行计算（移
动数据到程序端）

遇到的问题：

1、数据量越来越大、数据处理的速度越来越慢。

2、数据种类越来越多，出现很多数据库无法存储的数据，如音频、照片、视频等。

2、什么是大数据？（Big Data）

目标：掌握什么是大数据、传统数据与大数据的对比有哪些区别、大数据的特点

是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

是指一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。

数据的存储单位

最小的基本单位是bit

1 Byte =8 bit

1 KB = 1,024 Bytes = 8192 bit

KB à MB à GB à TB àPB à EB à ZB àYB à BB àNBà DB 进率1024

3、传统数据与大数据的对比

4、大数据的特点

数据集主要特点

Volume（大量）: 数据量巨大，从TB到PB级别。

Velocity（高速）: 数据量在持续增加(两位数的年增长率)。

Variety（多样）: 数据类型复杂，超过80%的数据是非结构化的。

Value（低密度高价值）: 低成本创造高价值。

其他特征

数据来自大量源，需要做相关性分析。

需要实时或者准实时的流式采集，有些应用90%写vs.10%读。

数据需要长时间存储，非热点数据也会被随机访问。

传统数据与大数据处理服务器系统安装对比

目标：了解传统数据与大数据处理服务器系统安装有什么不同

详细解释请见PPT《大数据素材》中的“传统数据与大数据处理服务器系统安装对比”

传统数据下服务器系统安装

在传统数据背景下，服务器系统安装中，系统硬盘、数据硬盘完全隔离。通常会将多块数据硬盘制作成LVM(逻辑卷)，即将多块物理硬盘通过软件技术“拼接”在一起形成一个大的硬盘（逻辑上是一个硬盘）。

大数据下服务器系统安装

在大数据背景下，服务器系统安装中，系统硬盘、数据硬盘完全隔离。数据硬盘必须独立挂载，每个硬盘挂载到系统的一个独立的目录下。

5、大数据生态系统

目标：了解大数据生态系统，大数据技术列举

大数据：历史数据量逐渐攀升、新型数据类型逐渐增多。是企业必然会遇到的问题

新技术：传统方式与技术无法处理大量、种类繁多的数据，需要新的技术解决新的问题。

技术人员：有了问题，有了解决问题的技术，需要大量懂技术的人解决问题。

最佳实践：解决问题的方法，途径有很多，寻找最好的解决方法。

商业模式：有了最好的解决办法，同行业可以复用，不同行业可以借鉴，便形成了商业模式。

新技术

HADOOP

HDFS: 海量数据存储。

YARN: 集群资源调度。

MapReduce: 历史数据离线计算。

Hive:海量数据仓库。

Hbase:海量数据快速查询数据库。

Zookeeper:集群组件协调。

Impala:是一个能查询存储在Hadoop的HDFS和HBase中的PB级数据的交互式查询引擎。

Kudu:是一个既能够支持高吞吐批处理，又能够满足低延时随机读取的综合组件

Sqoop:数据同步组件（关系型数据库与hadoop同步）。

Flume :海量数据收集。

Kafka:消息总线。

Oozie:工作流协调。

Azkaban: 工作流协调。

Zeppelin: 数据可视化。

Hue: 数据可视化。

Flink:实时计算引擎。

Kylin: 分布式分析引擎，提供Hadoop/Spark之上的SQL查询接口及多维分析。

Elasticsearch: 是一个分布式多用户能力的全文搜索引擎。

Logstash: 一个开源数据搜集引擎。

Kibana: 一个开源的分析和可视化平台。

SPARK

SparkCore:Spark 核心组件

SparkSQL:高效数仓SQL引擎

Spark Streaming: 实时计算引擎

Structured: 实时计算引擎2.0

Spark MLlib:机器学习引擎

Spark GraphX:图计算引擎

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
初识大数据小孩子都懂的大数据

1、大数据概述传统数据处理介绍目标：了解大数据到来之前，传统数据的通用处理模式。数据来源:1、企业内部管理系统 ,如员工考勤（打卡）记录。 2、客户管理系统（CRM）数据特征： 1、数据增长速度比较缓慢，种类单一。 2、数据量为GB级别，数据量较小。数据处理方式：1、数据保存在数据库中。处理时以处理器为中心，...
复制链接

扫一扫

唔_Yxy CSDN认证博客专家 CSDN认证企业博客

码龄6年

8: 原创

16万+: 周排名

55万+: 总排名

4134: 访问

: 等级

127: 积分

3: 粉丝

2: 获赞

1: 评论

4: 收藏

私信

关注

分类专栏

大数据 1篇

最新评论

初识布隆过滤器
想上天的小旭旭呀: 膜拜大佬，言简意赅通俗易懂，芜湖起飞~

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。