自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

面向星辰大海

面向对象, 我对象的名字叫星辰大海 !

  • 博客(12)
  • 资源 (5)
  • 收藏
  • 关注

原创 hive解决小文件过多的问题--[常用策略]

哪里会产生小文件 ?源数据本身有很多小文件动态分区会产生大量小文件reduce个数越多, 小文件越多按分区插入数据的时候会产生大量的小文件, 文件个数 = maptask个数 * 分区数小文件太多造成的影响 ?从Hive的角度看,小文件会开很多map,一个map开一个JVM去执行,所以这些任务的初始化,启动,执行会浪费大量的资源,严重影响性能。HDFS存储太多小文件, 会导致n...

2018-12-18 23:19:14 10916

原创 大数据面试总结 [面经分享] 2018/12/13

上午面试: 神州优车面试问题:1. 数据仓库建模方面数据仓库主要是通过维度建模技术, 主要有两个概念: 事实表和维度表接下来说一些维度建模的三种模型: 星星模型, 雪花模型, 星座模型可以举个栗子说明一下应用场景:例如有以下表: 产品表,产品分类表,商家表,用户表,订单表. 然后确定我们的主题, 例如是销售, 接着我们要确定哪些维度对于我们分析销售这个主题有帮助, 比如产品/商家/...

2018-12-13 23:17:47 3729 4

原创 面试常见SQL练习题

第一题CREATE TABLE `table1` ( `name` VARCHAR(20) DEFAULT NULL, `kecheng` VARCHAR(20) DEFAULT NULL, `fenshu` INT(10) DEFAULT NULL);INSERT INTO table1(NAME,kecheng,fenshu) VALUES('张三','语文',81);I...

2018-11-12 14:40:42 2517 1

原创 Hadoop MapReduce八大步骤以及Yarn工作原理详解

Hadoop是市面上使用最多的大数据分布式文件存储系统和分布式处理系统, 其中分为两大块分别是hdfs和MapReduce, hdfs是分布式文件存储系统, 借鉴了Google的GFS论文. MapReduce是分布式计算处理系统, 借鉴了Google的MapReduce论文. 本文着重来梳理下新版也就是2.3后的Hadoop的MapReduce部分, 也就是Yarn框架, 以及MapReduce...

2018-10-16 13:10:35 13801 6

原创 CDH版本的hadoop-2.6.0-cdh5.14.0伪集群版搭建

准备工作:下载CDH的hadoop安装包, 这里选择5.14.0版本http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.14.0-src.tar.gzCDH的hadoop的安装包下载下来后, 是没有提供带C程序访问的接口, 所以我们在使用本地库(本地库可以用来做压缩,以及支持C程序等等)的时候就会出问题, 所以我们需要下载src源...

2018-10-10 17:32:46 2757 1

原创 CDH版本hadoop的源码编译

在安装CDH版本的hadoop的时候, 我们下载下来的CDH的hadoop安装包中, 并没有native包, 所以我们在使用本地库 (本地库可以用来做压缩, 以及支持C程序等等) 的时候就会出问题, 好了废话不多说, 接下来看如何编译.首先我们打开src目录下的BUILDING.txt文件能够看到, 在官方说明中已经写明了编译所需要的准备工作准备工作:linux系统 (准备一台干净的...

2018-10-10 17:30:00 3440 1

原创 shell编程入门之快速手写一键批量安装jdk

在搭建linux集群中, 我们难免要批量的安装一个软件, 或者批量的修改一些配置文件, 这些修改的地方大同小异, 但是却需要我们每一台机器都去配置. 这就导致我们做了很多的无用功.本文带你快速的手写一个极简版的一键安装jdk的脚本. 注意是极简版哦 !不多说, 直接进入准备工作.准备工作:在一台机器上安装好jdk准备好其他机器书写shell脚本:vim installjdk.sh...

2018-10-10 17:26:37 394

原创 centOS虚拟机复制的兼容性问题

今天在拷贝centOS虚拟机的时候, 意外遇到centOS复制时候的兼容性问题.配置文件 .vmx 是由VMware产品创建,但该产品与此版 VMware workstation 不兼容,因此无法使用。根据这个提示,初步怀疑是虚拟机创建时的版本和我安装的workstation版本不兼容,由于软件一般会有向下兼容的特性,所以虚拟机的版本可能要高于我的workstation版本。按照这个思路,...

2018-10-10 17:24:03 7421 2

原创 使用mycat搭建实现mysql数据库集群管理

今天来使用mycat管理mysql集群, 随着数据量的提升, 我们如果把所有数据存储在一个数据库中, 对数据的各种操作就会变得非常的困难. 自然我们又想到了数据库也进行集群部署, 将一个数据库的数据分散到不同的数据库中存储, 进而提升数据操作的性能.本文的定义是简洁快速的使用mycat, 让读者可以快速的入门mycat, 因此本文聚焦于mycat的安装, 使用, 简易配置, 常用配置文件和标签的...

2018-10-01 21:49:28 4744 1

原创 Redis-Cluster集群搭建实战, 遇到ruby版本太低的问题, 顺利解决 !

今天来搭建一个Redis-Cluster, redis是在3.0.0版本后支持了Redis-Cluster集群, 它是Redis官方提出的解决方案, Redis-Cluster采用无中心结构, 每个节点保存数据和整个集群状态, 每个节点都和其他所有节点连接.对于redis是什么, 以及如何搭建redis单机版本, 本文中就不介绍了.我们为什么需要用到redis集群?单击版redis内存容量...

2018-09-30 17:04:53 1574

原创 搭建基于Zookeeper的SolrCloud集群

SolrCloud是基于Solr和Zookeeper的分布式搜索方案, 就是使用 Zookeeper作为集群的配置信息中心,solrCloud提供分布式的搜索能力。Zookeeper的作用: 几种管理配置文件, 集群管理 (帮助solr选举主从)为什么需要SolrCloud?我们一般都是在需要大规模的索引数据量, 搜索请求的并发量很高, 要求容错能力强的时候, 就会考虑使用SolrCloud...

2018-09-30 01:37:43 235

原创 集群与分布式的区别和Zookeeper集群搭建入门

一. 集群与分布式什么是集群多个节点干相同的事情生活小栗子: 赛龙舟中每个划桨的人都是一个节点, 每个节点做相同的事情, 这就是集群.什么是分布式多个节点协同完成一件事情, 每个节点做不同的事情生活小栗子: 乐队中有的人弹吉他, 有的人打鼓, 有的人吹号. 并且共同完成一次演出, 这就是分布式.集群与分布式不管在生活中, 还是在我们的实际项目中, 集群与分布式大多都是同时...

2018-09-29 18:09:32 801

canal.deployer-1.1.3.tar.gz

canal.deployer-1.1.3.tar.gz

2019-05-12

UML建模工具_jude_community.rar

UML建模工具_jude_community

2019-05-12

redis-4.0.14.tar.gz

redis-4.0.14.tar.gz

2019-05-12

rocketmq-externals.tar.gz

rocketmq-externals.tar.gz rocketmq监控资源包下载 rocketmq监控资源包下载

2019-05-12

rocketmq_namesrv.zip

rocketmq_namesrv.zip

2019-05-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除