- 博客(5)
- 资源 (1)
- 收藏
- 关注
转载 大数据项目中如何实现架构选型和集群规划?
大数据项目中如何实现架构选型和集群规划?1.处理流程数据源关系型数据库表:订单,用户,地址。。。日志文件: 页面数据、埋点数据数据采集sqoop、kettle flume shell.数据存储:HDFS、Hive、HBASE数据清洗Mapreduce、hive、sparkCore数据处理(分析)Hive、MapReduce数据应用展示2.架构逻辑(1)...
2020-01-23 11:09:01 772
转载 Hadoop中namenode出现故障的解决方法
Hadoop中Namenode单点故障的解决方案需求:实现namenode元数据的备份,解决namenode单点宕机导致集群不可用的问题。方案描述:当namenode所在服务器宕机的时候,我们可以利用namenode备份的元数据迅速重构新的namenode来投入使用。1.Hadoop本身提供了可利用secondarynamenode的备份数据来恢复namenode的元数据的...
2020-01-18 14:59:58 3586
原创 yarn介绍及调度策略
yarn资源调度1.yarn的介绍: yarn是hadoop集群当中的资源管理系统模块,从hadoop2.0开始引入yarn模块,yarn可为各类计算框架提供资源的管理和调度,主要用于管理集群当中的资源(主要是服务器的各种硬件资源,包括CPU,内存,磁盘,网络IO等)以及调度运行在yarn上面的各种任务。 yarn核心出发点是为了分离资源管理与作业监控,实现分离的做法是拥有一个全局的资源管...
2020-01-17 15:29:22 1157
原创 reduceByKey和groupByKey的区别:
spark中reduceByKey和groupByKey的区别:打开源码查看英文解释:/*** Merge the values for each key using an associative reduce function. This will also perform* the merging locally on each mapper before sending re...
2020-01-15 10:45:26 483
原创 大数据分析工具之Kudu介绍
1. 什么是 Kudu导读 Kudu的应用场景是什么? Kudu在大数据平台中的位置在哪? Kudu用什么样的设计, 才能满足其设计目标? Kudu中有什么集群角色? 1.1. Kudu 的应用场景现代大数据的应用场景例如现在要做一个类似物联网的项目, 可能是对某个工厂的生产数据进行分析项目特点 数据量大 有一个非常重大的挑...
2020-01-07 17:15:14 1662
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人