大数据笔记1

最新推荐文章于 2020-06-13 15:33:43 发布

whisky丶

最新推荐文章于 2020-06-13 15:33:43 发布

阅读量407

点赞数

1.什么是大数据，4V？

数据量大（Volume）。第一个特征是数据量大，包括采集、存储和计算的量都非常大。大数据的起始计量单位至少是P（1000个T）、E（100万个T）或Z（10亿个T）。

类型繁多（Variety）。第二个特征是种类和来源多样化。包括结构化、半结构化和非结构化数据，具体表现为网络日志、音频、视频、图片、地理位置信息等等，多类型的数据对数据的处理能力提出了更高的要求。

价值密度低（Value）。第三个特征是数据价值密度相对较低，或者说是浪里淘沙却又弥足珍贵。随着互联网以及物联网的广泛应用，信息感知无处不在，信息海量，但价值密度较低，如何结合业务逻辑并通过强大的机器算法来挖掘数据价值，是大数据时代最需要解决的问题。

速度快时效高（Velocity）。第四个特征数据增长速度快，处理速度也快，时效性要求高。比如搜索引擎要求几分钟前的新闻能够被用户查询到，个性化推荐算法尽可能要求实时完成推荐。这是大数据区别于传统数据挖掘的显著特征。

2.数据结构+非结构

结构化数据也称作行数据，是由二维表结构来逻辑表达和实现的数据，严格地遵循数据格式与长度规范，主要通过关系型数据库进行存储和管理。

非结构化数据是数据结构不规则或不完整，没有预定义的数据模型，不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、XML, HTML、各类报表、图像和音频/视频信息等等。

3.数据单位 pb，Z Y
4.数据分析流程：采集-ETL-分析-显示

5.计算模式：迭代流批处理交互式

基于实时数据流的处理，通常的时间跨度在数百毫秒到数秒之间

流是一种数据传送技术，它把客户端数据变成一个稳定的流。正是由于数据传送呈现连续不停的形态，所以流引擎需要连续不断处理数据

基于历史数据的交互式查询，通常时间跨度在数十秒到数分钟之间

在商业智能领域少量更新和大量扫描分析场景，目前是Impala+Kudu/Hive/Spark SQL/Greenplum Mpp数据库在混战。

复杂的批量数据处理，通常的时间跨度在几分钟到数小时之间

6.简介分布式系统？

7.CDH

Cloudera

版本（

Cloudera

’

Distribution

Including

Apache

Hadoop

，

简称

CDH

Cloudera版本（Cloudera’s Distribution Including Apache Hadoop，简称CDH

8.CAP原理
CAP原则又称CAP定理，指的是在一个分布式系统中， Consistency（一致性）、 Availability（可用性）、Partition tolerance（分区容错性），三者不可得兼

9.hadoop技术栈 hdfs，mapreduce,hive，hbase，sqoop

HDFS是GFS的一种实现，他的完整名字是分布式文件系统，类似于FAT32，NTFS，是一种文件格式，是底层的。

Hbase是Hadoop database，即Hadoop数据库。它是一个适合于非结构化数据存储的数据库，HBase基于列的而不是基于行的模式。

Sqoop则为HBase提供了方便的RDBMS（关系型数据库）数据导入功能，使得传统数据库数据向HBase中迁移变的非常方便。

Hive不支持更改数据的操作，Hive基于数据仓库，提供静态数据的动态查询。其使用类SQL语言，底层经过编译转为MapReduce程序，在Hadoop上运行，数据存储在HDFS上。

MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算