忍哥-CSDN博客

原创不同hive集群中基于表的数据一致性比对

因对hadoop集群进行数据迁移，数据迁移完毕后进行两个hive库的数据一致性的比对，不仅对源表数据进行比对，而且要同时使用两个集群加工相同数据，对加工后的数据进行数据一致性比对，下面采用md5方法的验证：#!/bin/bashdb='hmdbi'hive -e "use $db;show tables '*';"> tables.txtsleep 2...

2018-08-23 14:17:27 1826

这里采用Shell的方法在hive库里面循环执行”show create table“获取其对应的建表语句；两个脚本，分别是两种方式，一个是”show tables”后将表列表生成文件，然后根据读取文件进行建表语句的查询；而第二种是在for条件中直接获取表的列表清单，然后查询建表语句；很明显，后一种方式简单明了。 1、第一种方式 /home/hadoop/nisj/xx/Yao/hiveTab...

2018-08-09 15:08:52 1856

转载 hive使用rank实现topN的查询

前置条件：安装好hive背景： hive表中存有cookieid和time两个字段目标：通过rank方法查出每个cookieid在哪一天的次数最多具体步骤如下：一、创建表CREATE EXTERNAL TABLE tmp_dh_topN ( cookieid string, vtime string –day ) ROW FORMAT DELIMITED FI...

2018-05-02 18:47:00 927

转载 Hive之数据倾斜的原因和解决方法

摘要： Hive之数据倾斜的原因和解决方法数据倾斜在做Shuffle阶段的优化过程中，遇到了数据倾斜的问题，造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和，优化是基于这些Counters得出的平均值，而由于数据倾斜的原因造成map处理数据量的差异过大，使得这些平均值能代表的价值降低。Hive的执行是分阶段的，map处理数据量的差异取决...

2018-04-26 23:18:13 438

原创 Hive自己如何确定reduce数和map数

控制hive任务中的map数: 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)； Hive自己如何确定reduce数： reduce个数的...

2018-04-26 21:56:25 1919

原创 Hive数据倾斜解决方案

数据倾斜的解决方案 2.1参数调节： hive.map.aggr=true Map 端部分聚合，相当于Combiner hive.groupby.skewindata=true 有数据倾斜的时候进行负载均衡，当选项设定为 true，生成的查询计划会有两个 MR Job。第一个 MR Job 中，Map 的输出结果集合会随机分布到 Reduce 中，每个 ...

2018-04-26 21:55:04 931

原创 Rowkey长度原则

Rowkey长度原则Rowkey是一个二进制码流，Rowkey的长度被很多开发者建议说设计在10~100个字节，不过建议是越短越好，不要超过16个字节。原因如下：（1）数据的持久化文件HFile中是按照KeyValue存储的，如果Rowkey过长比如100个字节，1000万列数据光Rowkey就要占用100*1000万=10亿个字节，将近1G数据，这会极大影响HFile的存储效率；（...

2018-04-26 21:53:48 6127

原创面试系列-使用java 重写　hbase api

使用java 重写　hbase api *public class HBaseTest { public static Configuration conf = null; public static Admin admin; public static Connection connection; public static Table table;...

2018-04-26 21:52:27 194

原创面试相关（g)

Hive增量导入是怎么做的数据表的创建样例： CREATE TABLE YDDT ( ID string, YDJC_ID string, YDDT_DATA_TYPE string, YDDT_BUSSINESS_NOW bigint, YDDT_USER_NOW bigint, YDDT_COLLECT_TIME string, YDDT_CREATOR

2018-04-26 21:47:40 287

原创大数据面试相关

hadoop的三大组件功能：MapReduce：对海量数据的处理分布式思想分而治之大数据集分为小的数据集每个数据集，尽心逻辑业务处理map 合并统计数据结果reduceHDFS: 存储海量数据分布式安全性副本数据数据是以bloc...

2018-04-21 21:32:14 228

原创关于简单介绍Mapreduce,Hbase,Kafka,Zookeeper

1.1. zookeeper是干什么的？Zookeeper 是分布式协调服务，分布式应用程序可以基于它实现同步服务，配置维护和命名服务等1.2. zookeeper节点类型Znode有两种类型：短暂（ephemeral）（断开连接自己删除）持久（persistent）（断开连接不删除）Znode有四种形式的目录节点（默认是persistent ）PERSISTENTPERSISTENT_SEQU...

2018-04-21 21:31:57 1108

原创大数据Hive 面试以及知识点

Hive的工作原理流程大致步骤为：1. 用户提交查询等任务给Driver。2. 编译器获得该用户的任务Plan。3. 编译器Compiler根据用户任务去MetaStore中获取需要的Hive的元数据信息。4. 编译器Compiler得到元数据信息，对任务进行编译，先将HiveQL转换为抽象语法树，然后将抽象语法树转换成查询块，将查询块转化为逻辑的查询计划，重写逻辑查询计划，将逻辑计划转化为物理的...

2018-04-21 21:31:27 1290

原创我的面试－－spark中如何划分stage

2.spark中如何划分stage窄依赖指父RDD的每一个分区最多被一个子RDD的分区所用，表现为一个父RDD的分区对应于一个子RDD的分区两个父RDD的分区对应于一个子RDD 的分区。宽依赖指子RDD的每个分区都要依赖于父RDD的所有分区，这是shuffle类操作Stage:一个Job会被拆分为多组Task，每组任务被称为一个Stage就像Map Stage， Reduce Stage。Stag...

2018-04-21 21:30:04 7008 2

原创 Sqoop导入底层工作原理

1.Sqoop导入底层工作原理（1）在导入前，Sqoop使用JDBC来检查将要导入的数据表。（2）Sqoop检索出表中所有的列以及列的SQL数据类型。（3）把这些SQL类型的映射到java数据类型，例如（VARCHAR、INTEGER）———>（String，Integer）。（4）在MapReduce应用中将使用这些对应的java类型来保存字段的值。（5）Sqoop的代...

2018-04-21 21:29:15 5573 1

原创 hbase表设计原则

1、列族的数量及列族的势建议将HBase列族的数量设置的越少越好。当强，对于两个或两个以上的列族HBase并不能处理的很好。这是由于HBase的Flushing和压缩是基于Region的。当一个列族所存储的数据达到Flushing的阈值时，该表中所有列族将同时进行Flushing操作。这将带来不必要的I/O开销，列族越多，该特性带来的影响越大。此外，还要考虑到同一个表中不同列族所存储的记...

2018-04-15 22:05:26 457

原创面试整理

集群简述对于企业而言，一般的集群大小规模大概是如下映射关系：集群大小小：10~30节点中：100~300节点大：1000+节点对应所需的zookeeper集群规模大概是小：3台中：5台大：7台有些同学会说，学这玩意啥用啊？我之前集群环境搭的可6了，咔咔咔一顿操作就OK了，老哥，你试想一下，2000台集群节点呢？按照我们之前的配置方式。。。。。。请开始你的表演。...

2018-04-15 22:03:06 181

原创 MapReduce优化参数

一、 MapReduce优化参数1．资源相关参数//以下参数是在用户自己的MapReduce应用程序中配置就可以生效(1) mapreduce.map.memory.mb: 一个Map Task可使用的内存上限（单位:MB），默认为1024。如果Map Task实际使用的资源量超过该值，则会被强制杀死。(2) mapreduce.reduce.memory.mb: 一个Reduce Task可使...

2018-04-14 15:01:25 663

原创 HDFS入门

一、 HDFS入门1． HDFS基本概念1.1． HDFS介绍HDFS是Hadoop Distribute File System 的简称，意为：Hadoop分布式文件系统。是Hadoop核心组件之一，作为最底层的分布式存储服务而存在。分布式文件系统解决的问题就是大数据存储。它们是横跨在多台计算机上的存储系统。分布式文件系统在大数据时代有着广泛的应用前景，它们为存储和处理超大规模数据提供所需的扩展...

2018-04-14 10:30:23 711

原创常见java 框架面试题

1.结合项目谈谈你对 MVC 的理解MVC 是 Model—View—Controler 的简称。即模型—视图—控制器。MVC 是一种设计模式，它强制性的把应用程序的输入、处理和输出分开。MVC 中的模型、视图、控制器它们分别担负着不同的任务。视图: 视图是用户看到并与之交互的界面。视图向用户显示相关的数据，并接受用户的输入。视图不进行任何业务逻辑处理。模型: 模型表示业务数据和业务处理。相当于...

2018-04-07 14:57:16 2137

原创 IDEA破解

http://idea.youbbs.org

2018-04-06 16:10:07 148

原创 hive安装部署

1.上传tar包2.解压 tar -zxvf hive-1.2.1.tar.gz 3.安装mysql数据库推荐yum 在线安装4.配置hive （a）配置HIVE_HOME环境变量 vi conf/hive-env.sh 配置其中的$hadoop_home（b）配置元数据库信息 vi hive-site.xml

2018-04-01 11:42:55 209

原创 Spark集群安装

3.1 下载 spark 安装包下载地址 spark 官网： http://spark.apache.org/downloads.html这里我们使用 spark-2.0.2-bin-hadoop2.7 版本.3.2 规划安装目录/opt/bigdata3.3 解压安装包tar -zxvf spark-2.0.2-bin-hadoop2.7.tgz3.4 重命名目录mv spark-2.0.2-b...

2018-03-24 22:39:27 143

原创 hadoop　ha的集群搭建

1.修改Linux主机名2.修改IP3.修改主机名和IP的映射关系 /etc/hosts ---------注意--------- 如果你们公司是租用的服务器或是使用的云主机（如华为用主机、阿里云主机等） /etc/hosts里面要配置的是内网IP地址和主机名的映射关系4.关闭防火墙5.ssh免登陆6.安装JDK，配置环境变量等集群部署节点角色的规划（7节点） -----------------...

2018-03-17 23:56:42 173

原创 ES插件es-head安装

安装Head 插件Elasticsearch Head Plugin: 对ES进行各种操作，如查询、删除、浏览索引等。1、下载elasticsearch-head并解压在线下载：wget https://github.com/mobz/elasticsearch-head/archive/master.zip或者到github下载：https://github.com/mobz/elastic...

2018-03-17 23:08:29 8024 1

原创 Linux环境下安装Elasticsearch

Linux环境下安装Elasticsearch（因为Elasticsearch需要jdk1.8或更高的版本才可以运行）提前下载tar.gz相关文件，下载地址:https://www.elastic.co/downloads/elasticsearch这里下载的是elasticsearch-5.5.2.tar.gz进入Linux相关目录解压下载好的tar.gz文件到这个目录Linux通过登录root...

2018-03-17 22:26:14 292

原创 Hbase集群部署

### 2.1 下载安装包```wget http://mirrors.hust.edu.cn/apache/hbase/1.3.1/hbase-1.3.1-bin.tar.gztar -zxvf hbase-1.3.1-bin.tar.gz -C /export/servers/cd ../servers/mv hbase-1.3.1 hbasevi /etc/profile-export HB...

2018-03-17 20:48:48 263

原创 kafka集群搭建

4.1、准备3台虚拟机192.168.140.128 kafka01192.168.140.129 kafka02192.168.140.130 kafka034.2、初始化环境1）安装jdk、安装zookeeper2）安装目录安装包存放的目录：/export/software安装程序存放的目录：/export/servers数据目录：/export/data日志目录：/export/logsm...

2018-03-16 10:58:48 149

原创 Storm集群搭建

Storm集群安装部署cd /export/servers/software/tar -zxvf apache-storm-1.1.1.tar.gz -C ../servers/cd /export/servers/mv apache-storm-1.1.1 stormcd /export/servers/storm/confrm storm.yaml touch storm.yaml vi st...

2018-03-12 19:45:00 107

原创 Flume安装部署

一、 Flume安装部署l Flume的安装非常简单上传安装包到数据源所在节点上然后解压 tar -zxvf apache-flume-1.6.0-bin.tar.gz然后进入flume的目录，修改conf下的flume-env.sh，在里面配置JAVA_HOMEl 根据数据采集需求配置采集方案，描述在配置文件中(文件名可任意自定义)l 指定采集方案配置文件，在相应的节点上启动flume age...

2018-03-12 18:54:29 194

原创离线redis的安装

离线redis的安装Redis是c语言开发的。安装redis需要c语言的编译环境。如果没有gcc需要在线安装，Yum install gcc-c++如果无法上网，参考离线安装gcc安装步骤：第一步：redis的源码包上传到linux系统。第二步：解压缩redis。第三步：编译。make [root@localhost redis]# cd redis-3.0.0[root@localhost r...

2018-03-12 18:24:46 2180

原创 yum在线安装mysql

mysql --查看系统之前是否已安装MySQL rpm -qa | grep mysql --有的话，卸载 rpm -e mysql-libs-5.1.73-5.el6_6.x86_64 --nodeps yum install mysql mysql-server mysql-devel 完成后，用 /etc/init.d/mysq...

2018-03-12 16:11:14 455

原创 hadoop集群搭建

3.安装hadoop2.7.4 上传hadoop的安装包到服务器 hadoop-2.7.4-with-centos-6.7.tar.gz 解压安装包 tar zxvf hadoop-2.7.4-with-centos-6.7.tar.gz 注意：hadoop2.x的配置文件目录：$HADOOP_HOME/etc/hadoop---------------------------------...

2018-03-12 08:47:27 119

原创 linux下zookeeper的安装

安装前需要安装好jdkexport JAVA_HOME=/root/apps/jdk1.8.0_65export PATH=$PATH:$JAVA_HOME/binexport CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar配置免秘登录##下载安装包、解压tar -zxvf zookeeper-3.4.5.tar.gzmv zo...

2018-03-11 23:49:53 165

原创 linux常见文件设置-ssh-主机名-域名映射-防火墙等

同步时间#手动同步集群各机器时间date -s "2017-03-03 03:03:03" yum install ntpdate#网络同步时间ntpdate cn.pool.ntp.org 设置主机名vi /etc/sysconfig/networkNETWORKING=yesHOSTNAME=node-1 配置IP、主机名映射vi /etc/hosts192.168.33.101 ...

2018-03-11 23:49:19 1794

原创 linux上安装jdk

查看当前的jdk版本java –version 查找有哪些Java的包rpm -qa | grep java 依次卸载openjdk的包rpm -e --nodeps tzdata-java-2015e-1.el6.noarchrpm -e --nodeps java-1.6.0-openjdk-1.6.0.35-1.13.7.1.el6_6.x86_64rpm -e --nodeps java-...

2018-03-11 14:25:55 130

原创关于克隆后的虚拟机网卡的问题

centos 6.7查看ifconfig 发现没有网卡然后设置： ifconfig eth1 up查看ifconfig 得到mac地址修改文件 /etc/systemconfig/network-scripts/ifcfg-eth0改名为ifcfg-eth1打开文件：1.更改名字为eth1 2.删除UUID 3.更改MAC地址 centos 6.9 在/etc/udev/rui.d下面的70...

2018-03-11 13:58:27 256

忍哥的博客