大数据技术概述_第一章笔记


大数据的重要性
在这里插入图片描述

大数据的思维方式:
全样而非抽样
效率而非精确
相关而非因果

1.1大数据的概念与关键技术

1.1.1 大数据概念

大数据的“4V”
volume 数据量大 ZB TB GB级别
variety 数据类型多 10%结构化数据 90%非结构化数据(邮件、音频、视频、微信微博,位置信息,链接、手机信息,网络日志)
velocity 处理速度快 秒级响应、实时响应(与传统数据挖掘有本质的区别)
value 价值密度低 分散在海量数据中

1.1.2大数据关键技术

技术的不同层面

数据采集与预处理
**数据存储**与管理
==数据处理==与分析
数据可视化
数据安全和隐私保护

大数据计算模式

批处理计算    大规模数据的批量处理
流处理计算       流数据的实时计算
图计算         大规模图结构数据的处理
查询分析计算    大规模数据的存储于查询分析

1.2代表性大数据技术

1.2.1 Hadoop

Apache公司 java
核心:HDFS(分布式文件系统)和MapReduce
在这里插入图片描述

1.2.1.1 HDFS

请添加图片描述

namenode名称结点:管理文件系统命名、客户端对文件的访问
client客户端:处理文件的读写

1.2.1.2 MapReduce

大于1TB的并行计算
数据在hdfs中分成分片,被map并行处理,输入到reduce中,最后输出结果到分布式文件系统中。
在这里插入图片描述

1.2.1.3 YARN(重点)

一个集群多个框架:一个集群统一管理其他计算框架。实现集群资源共享,资源弹性收缩,提高集群利用率。避免数据跨集群移动。

1.2.1.3 hbase、hive、flume、sqoop、

1.2.2Spark(重点)

AMP实验室
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

1.2.3Flink

Apache公司
在这里插入图片描述

1.2.4Beam

谷歌公司

1.3编程语言的选择(java scala pyhton)

hadoop :java python c c++
spark : java scala pyhton R

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值