面向星辰大海

面向对象, 我对象的名字叫星辰大海 !

hive解决小文件过多的问题--[常用策略]

哪里会产生小文件 ? 源数据本身有很多小文件 动态分区会产生大量小文件 reduce个数越多, 小文件越多 按分区插入数据的时候会产生大量的小文件, 文件个数 = maptask个数 * 分区数 小文件太多造成的影响 ? 从Hive的角度看,小文件会开很多map,一个map开一个JVM去执行...

2018-12-18 23:19:14

阅读数 1843

评论数 0

大数据面试总结 [面经分享] 2018/12/13

上午面试: 神州优车 面试问题: 1. 数据仓库建模方面 数据仓库主要是通过维度建模技术, 主要有两个概念: 事实表和维度表 接下来说一些维度建模的三种模型: 星星模型, 雪花模型, 星座模型 可以举个栗子说明一下应用场景: 例如有以下表: 产品表,产品分类表,商家表,用户表,...

2018-12-13 23:17:47

阅读数 995

评论数 2

面试常见SQL练习题

第一题 CREATE TABLE `table1` ( `name` VARCHAR(20) DEFAULT NULL, `kecheng` VARCHAR(20) DEFAULT NULL, `fenshu` INT(10) DEFAULT NULL ); INSER...

2018-11-12 14:40:42

阅读数 1479

评论数 0

Hadoop MapReduce八大步骤以及Yarn工作原理详解

Hadoop是市面上使用最多的大数据分布式文件存储系统和分布式处理系统, 其中分为两大块分别是hdfs和MapReduce, hdfs是分布式文件存储系统, 借鉴了Google的GFS论文. MapReduce是分布式计算处理系统, 借鉴了Google的MapReduce论文. 本文着重来梳理下新...

2018-10-16 13:10:35

阅读数 1324

评论数 0

CDH版本的hadoop-2.6.0-cdh5.14.0伪集群版搭建

准备工作: 下载CDH的hadoop安装包, 这里选择5.14.0版本 http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.14.0-src.tar.gz CDH的hadoop的安装包下载下来后, 是没有提供带C程序访问的接口, ...

2018-10-10 17:32:46

阅读数 426

评论数 0

CDH版本hadoop的源码编译

在安装CDH版本的hadoop的时候, 我们下载下来的CDH的hadoop安装包中, 并没有native包, 所以我们在使用本地库 (本地库可以用来做压缩, 以及支持C程序等等) 的时候就会出问题, 好了废话不多说, 接下来看如何编译. 首先我们打开src目录下的BUILDING.txt文件 能...

2018-10-10 17:30:00

阅读数 1089

评论数 0

shell编程入门之快速手写一键批量安装jdk

在搭建linux集群中, 我们难免要批量的安装一个软件, 或者批量的修改一些配置文件, 这些修改的地方大同小异, 但是却需要我们每一台机器都去配置. 这就导致我们做了很多的无用功. 本文带你快速的手写一个极简版的一键安装jdk的脚本. 注意是极简版哦 ! 不多说, 直接进入准备工作. 准备工作: ...

2018-10-10 17:26:37

阅读数 96

评论数 0

centOS虚拟机复制的兼容性问题

今天在拷贝centOS虚拟机的时候, 意外遇到centOS复制时候的兼容性问题. 配置文件 .vmx 是由VMware产品创建,但该产品与此版 VMware workstation 不兼容,因此无法使用。 根据这个提示,初步怀疑是虚拟机创建时的版本和我安装的workstation版本不兼容...

2018-10-10 17:24:03

阅读数 1590

评论数 0

使用mycat搭建实现mysql数据库集群管理

今天来使用mycat管理mysql集群, 随着数据量的提升, 我们如果把所有数据存储在一个数据库中, 对数据的各种操作就会变得非常的困难. 自然我们又想到了数据库也进行集群部署, 将一个数据库的数据分散到不同的数据库中存储, 进而提升数据操作的性能. 本文的定义是简洁快速的使用mycat, 让读者...

2018-10-01 21:49:28

阅读数 1310

评论数 0

Redis-Cluster集群搭建实战, 遇到ruby版本太低的问题, 顺利解决 !

今天来搭建一个Redis-Cluster, redis是在3.0.0版本后支持了Redis-Cluster集群, 它是Redis官方提出的解决方案, Redis-Cluster采用无中心结构, 每个节点保存数据和整个集群状态, 每个节点都和其他所有节点连接. 对于redis是什么, 以及如何搭建...

2018-09-30 17:04:53

阅读数 703

评论数 0

搭建基于Zookeeper的SolrCloud集群

SolrCloud是基于Solr和Zookeeper的分布式搜索方案, 就是使用 Zookeeper作为集群的配置信息中心,solrCloud提供分布式的搜索能力。 Zookeeper的作用: 几种管理配置文件, 集群管理 (帮助solr选举主从) 为什么需要SolrCloud? 我们一般都是在需...

2018-09-30 01:37:43

阅读数 38

评论数 0

集群与分布式的区别和Zookeeper集群搭建入门

一. 集群与分布式 什么是集群 多个节点干相同的事情 生活小栗子: 赛龙舟中每个划桨的人都是一个节点, 每个节点做相同的事情, 这就是集群. 什么是分布式 多个节点协同完成一件事情, 每个节点做不同的事情 生活小栗子: 乐队中有的人弹吉他, 有的人打鼓, 有的人吹号. 并且...

2018-09-29 18:09:32

阅读数 114

评论数 0

提示
确定要删除当前文章?
取消 删除