第三章
构建三个集群
zookeeper的作用就是在搭建分布式环境时处理可能发生的部分错误,还可以构建其他服务。
由leader和follower组成。工作原理就是原子广播。
准备工作有配置hosts文件,同步时间和SSH免密登录。
HDFS分布式文件储存基础,面向的是流数据访问和超大数据需求。
节点有4个NN,SNN,DN和客户端。数据存入DN中,由NN来进行管理。
大数据就是信息资产。
大数据平台的组成:一般是5层,数据获取、数据存储、资源调度管理、数据分析、可视化。
来源不同,数据获取技术也不同,点击数据就用浏览器探针,服务器数据就用flume,数据库日志数据就用canal,网页数据用爬虫,后面方便调用就放入kafka
数据存储就用到分布式文件系统HDFS和分布式数据库HBase
数据处理有两类,离线分析和实时分析。离线用的是spark core和Flink dataset
实时分析用的就是spark streaming和Flink datasteaming