大数据
文章平均质量分 85
骚年真骚
我立志做一名技术大牛, 我渴望加入顶尖的技术团队, 与团队一起做这个世界的先行者! 欢迎与我交流!
展开
-
Hadoop MapReduce八大步骤以及Yarn工作原理详解
Hadoop是市面上使用最多的大数据分布式文件存储系统和分布式处理系统, 其中分为两大块分别是hdfs和MapReduce, hdfs是分布式文件存储系统, 借鉴了Google的GFS论文. MapReduce是分布式计算处理系统, 借鉴了Google的MapReduce论文. 本文着重来梳理下新版也就是2.3后的Hadoop的MapReduce部分, 也就是Yarn框架, 以及MapReduce...原创 2018-10-16 13:10:35 · 13940 阅读 · 6 评论 -
CDH版本hadoop的源码编译
在安装CDH版本的hadoop的时候, 我们下载下来的CDH的hadoop安装包中, 并没有native包, 所以我们在使用本地库 (本地库可以用来做压缩, 以及支持C程序等等) 的时候就会出问题, 好了废话不多说, 接下来看如何编译.首先我们打开src目录下的BUILDING.txt文件能够看到, 在官方说明中已经写明了编译所需要的准备工作准备工作:linux系统 (准备一台干净的...原创 2018-10-10 17:30:00 · 3493 阅读 · 1 评论 -
CDH版本的hadoop-2.6.0-cdh5.14.0伪集群版搭建
准备工作:下载CDH的hadoop安装包, 这里选择5.14.0版本http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.14.0-src.tar.gzCDH的hadoop的安装包下载下来后, 是没有提供带C程序访问的接口, 所以我们在使用本地库(本地库可以用来做压缩,以及支持C程序等等)的时候就会出问题, 所以我们需要下载src源...原创 2018-10-10 17:32:46 · 2788 阅读 · 1 评论 -
面试常见SQL练习题
第一题CREATE TABLE `table1` ( `name` VARCHAR(20) DEFAULT NULL, `kecheng` VARCHAR(20) DEFAULT NULL, `fenshu` INT(10) DEFAULT NULL);INSERT INTO table1(NAME,kecheng,fenshu) VALUES('张三','语文',81);I...原创 2018-11-12 14:40:42 · 2551 阅读 · 1 评论 -
大数据面试总结 [面经分享] 2018/12/13
上午面试: 神州优车面试问题:1. 数据仓库建模方面数据仓库主要是通过维度建模技术, 主要有两个概念: 事实表和维度表接下来说一些维度建模的三种模型: 星星模型, 雪花模型, 星座模型可以举个栗子说明一下应用场景:例如有以下表: 产品表,产品分类表,商家表,用户表,订单表. 然后确定我们的主题, 例如是销售, 接着我们要确定哪些维度对于我们分析销售这个主题有帮助, 比如产品/商家/...原创 2018-12-13 23:17:47 · 3748 阅读 · 4 评论 -
hive解决小文件过多的问题--[常用策略]
哪里会产生小文件 ?源数据本身有很多小文件动态分区会产生大量小文件reduce个数越多, 小文件越多按分区插入数据的时候会产生大量的小文件, 文件个数 = maptask个数 * 分区数小文件太多造成的影响 ?从Hive的角度看,小文件会开很多map,一个map开一个JVM去执行,所以这些任务的初始化,启动,执行会浪费大量的资源,严重影响性能。HDFS存储太多小文件, 会导致n...原创 2018-12-18 23:19:14 · 10941 阅读 · 0 评论