大数据开发
大数据开发时用到的一些框架和会遇到的一些问题
周一竟然读博了
既然选择了,那就磕吧!!!
展开
-
count(distinct colA)与group by
在传统关系型数据库中,group by与count(distinct)都是很常见的操作。count(distinct colA)就是将colA中所有出现过的不同值取出来,相信只要接触过数据库的同学都能明白什么意思。count(distinct colA)的操作也可以用group by的方式完成,具体代码如下:select count(distinct colA) from table1;select count(1) from (select colA from table1 group by col原创 2020-08-19 13:34:33 · 146 阅读 · 0 评论 -
一篇读懂Hive优化
Hive优化一、hive参数优化1、map数优化2、reduce数优化3、Fetch抓取(Hive可以避免进行MapReduce)4 、模式选择 1)本地模式 ...原创 2020-09-01 14:27:09 · 157 阅读 · 0 评论 -
Kafka原理详解(复习用)
KafkaKafka是最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、storm/S...转载 2020-08-26 10:04:18 · 608 阅读 · 0 评论 -
CDH环境下HDFS挂载多硬盘
最近在公司实习,使用CDH搭环境,添加HDFS服务发现没有挂载全部的硬盘,查看节点硬盘挂载情况发现:硬盘被挂载到了所以目录下,而CDH使用了root用户,所以挂载到/home目录下的硬盘就没有被hdfs检查到,无法挂载到HDFS上。HDFS可以挂载多目录,所以在hdfs目录下创建dfs目录:mkdir -p /home/dfs并将/home/dfs配置到dfs.datanode.data.dir中:注意,这里我是将之前的HDFS服务删除了,然后添加目录重新添加HDFS服务,启动服务的时候会格原创 2020-08-14 11:40:29 · 735 阅读 · 0 评论 -
Spark的shuffle机制
Spark的shuffle机制最近在面试大数据开发工程师,面某B公司的时候问到了Spark的shuffle机制,并且问和MR的shuffle有什么样的区别,当时答得不太好,决定好好研究这个玩意儿,网上讲的很多,下面我就把我的理解做一下总结。什么时候shuffle在解释shuffle机制之前,首先要搞明白什么时候shuffle,那就得讲讲什么是shuffle了,咱们先把英语直译一下:洗牌。玩过扑克的兄弟肯定都不陌生,或者讲得更通俗点,就是打乱顺序。但是在大数据计算里,好像和这个过程有点不太相同。废话不多原创 2020-08-08 11:29:00 · 542 阅读 · 0 评论 -
MR提交job到YARN的流程
MR提交job到YARN的流程(1)首先client里执行一个MapReduce程序,这个程序运行在client端的JVM里,在main方法中最后有一个job.waitForCompletion(true)方法,当执行这个方法后会触发job.submitJob方法,准备向RM提交一个application。(2)RM接受到请求后,会为这个application生成一个application +id编号,并且client会检查输出路径是否已存在,输入输出路径信息是否齐全。不管检查有问题与否,RM都会给c原创 2020-08-06 13:46:18 · 871 阅读 · 0 评论 -
大数据开发之路—3
大数据开发之路—3之前记录了大数据开发环境的部署过程,下面就可以介绍大数据开发工具的一些工作机制和工作原理。今天首先介绍大数据开发中大家耳熟能详的工具——Hadoop。Hadoop作为一个最早开始流行的大数据开发工具,它能够做些什么呢?当然要看大数据开发需要干什么,简单来讲大数据主要做两件事情,一是海量数据的存储,二是海量数据的运算。那么Hadoop恰好就能够做这两件事情。为了能够满足以上两种需求,Hadoop的开发者设计以下几个核心的组件:HDFS:分布式文件系统,实现将文件分布式地存储在多台物理分散原创 2020-06-06 01:12:45 · 206 阅读 · 0 评论 -
大数据开发之路--2
大数据开发之路–2第一篇博客简单记录了HDFS的搭建,有点划水了。因为Hadoop版本上到2.0以后加入了一个非常重要的工具–统一资源管理YARN。这也是我研究项目的最重要的一个工具之一。所以再简单补充一下YARN的配置并介绍Hadoop的其他相关组件。原创 2020-04-30 11:20:09 · 290 阅读 · 0 评论 -
大数据开发之路—1
研究生大部分时间都在搞分布式计算,最近开始准备秋招了,想找一找大数据开发试试水。那就开始从头捋一遍吧,把之前整的hadoop、spark、zookeeper等等全部重新整理一遍,顺便写个博客记录一下。原创 2020-04-26 22:20:00 · 218 阅读 · 0 评论