第一章笔记
大数据的重要性
![在这里插入图片描述](https://i-blog.csdnimg.cn/blog_migrate/afe8428cbf1a43c40b475c9c64925b9c.png)
大数据的思维方式:
全样而非抽样
效率而非精确
相关而非因果
1.1大数据的概念与关键技术
1.1.1 大数据概念
大数据的“4V”
volume 数据量大 ZB TB GB级别
variety 数据类型多 10%结构化数据 90%非结构化数据(邮件、音频、视频、微信微博,位置信息,链接、手机信息,网络日志)
velocity 处理速度快 秒级响应、实时响应(与传统数据挖掘有本质的区别)
value 价值密度低 分散在海量数据中
1.1.2大数据关键技术
技术的不同层面
数据采集与预处理
**数据存储**与管理
==数据处理==与分析
数据可视化
数据安全和隐私保护
大数据计算模式
批处理计算 大规模数据的批量处理
流处理计算 流数据的实时计算
图计算 大规模图结构数据的处理
查询分析计算 大规模数据的存储于查询分析
1.2代表性大数据技术
1.2.1 Hadoop
Apache公司 java
核心:HDFS(分布式文件系统)和MapReduce
1.2.1.1 HDFS
namenode名称结点:管理文件系统命名、客户端对文件的访问
client客户端:处理文件的读写
1.2.1.2 MapReduce
大于1TB的并行计算
数据在hdfs中分成分片,被map并行处理,输入到reduce中,最后输出结果到分布式文件系统中。
1.2.1.3 YARN(重点)
一个集群多个框架:一个集群统一管理其他计算框架。实现集群资源共享,资源弹性收缩,提高集群利用率。避免数据跨集群移动。
1.2.1.3 hbase、hive、flume、sqoop、
1.2.2Spark(重点)
AMP实验室
1.2.3Flink
Apache公司
1.2.4Beam
谷歌公司
1.3编程语言的选择(java scala pyhton)
hadoop :java python c c++
spark : java scala pyhton R