hadoop
文章平均质量分 52
阿龙学堂
砖搬的多了,就自然知道怎样省力了
展开
-
阿龙学堂-hdfs存储数据倾斜
hdfs存储数据倾斜原创 2022-05-30 09:30:13 · 422 阅读 · 0 评论 -
安装zookeeper集群注意事项
安装zookeeper集群注意事项:1、准备工作 1.1、配置好 hostname 1.2、配置好ip地址 1.3、配置好 /etc/hosts域名映射 1.4、关闭防火墙 chkconfig iptables off (永久关闭) 1.5、安装jdk(配置 好 注意:source /etc/profile) 1.6、配置免密登陆 ssh-key原创 2018-01-15 20:36:56 · 1755 阅读 · 0 评论 -
大数据面试题
搜集了一些面试题,这里汇总下。1.简述对大数据组件:Yarn,Spark,Hbase,Hive的理解2.hdf文件系统中Namenode和DataNode区别和联系3.请描述Spark RDD中的transform和action的理解?4.两个类TextInputFormat和KeyValueInputFormat的区别是什么?5.在hadoop任务中,什么是inputsplit?6.hadoop...转载 2018-03-29 19:52:15 · 796 阅读 · 0 评论 -
总结杂谈
架构设计 图组件选择(调研+压测试)高可靠压缩格式文件格式每秒,分钟数据量 未入集群 离线 实时那块高可靠没有做好?flume memory |spark yarn开发内容:hivespark存储监控java1.GC jvm垃圾选择器参数串行收集器、并行收集器、并发收集器。GC有两种类型:Scavenge GC和Full GC。以使用-XX:+UseSerialGC打开。-XX:Paralle...原创 2018-04-09 10:51:07 · 345 阅读 · 0 评论 -
大数据平台调度系统-EasyScheduler
大数据平台离不开调度系统。大数据平台工作流系统主要分为两类: 1.静态工作流执行列表 2.动态工作流执行列表 静态工作流根据作业计划提前生成并持久化任务执行列表,代表有:oozie , azkaban,airflow。 oozie , azkaban,airflow 这三个调度系统都是基于文件配置固化工作流形成DAG。oozie使用xml文件描述任务,支...转载 2019-07-15 16:55:59 · 5814 阅读 · 1 评论