自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

忍哥的博客

开发学习

  • 博客(36)
  • 收藏
  • 关注

原创 不同hive集群中基于表的数据一致性比对

因对hadoop集群进行数据迁移,数据迁移完毕后进行两个hive库的数据一致性的比对,不仅对源表数据进行比对,而且要同时使用两个集群加工相同数据,对加工后的数据进行数据一致性比对,下面采用md5方法的验证:#!/bin/bashdb='hmdbi'hive -e "use $db;show tables '*';"> tables.txtsleep 2...

2018-08-23 14:17:27 1724

转载 Shell批量获取hive库中的建表语句

这里采用Shell的方法在hive库里面循环执行”show create table“获取其对应的建表语句;两个脚本,分别是两种方式,一个是”show tables”后将表列表生成文件,然后根据读取文件进行建表语句的查询;而第二种是在for条件中直接获取表的列表清单,然后查询建表语句;很明显,后一种方式简单明了。 1、第一种方式 /home/hadoop/nisj/xx/Yao/hiveTab...

2018-08-09 15:08:52 1773

转载 hive使用rank实现topN的查询

前置条件: 安装好hive背景: hive表中存有cookieid和time两个字段 目标: 通过rank方法查出每个cookieid在哪一天的次数最多具体步骤如下: 一、创建表CREATE EXTERNAL TABLE tmp_dh_topN ( cookieid string, vtime string –day ) ROW FORMAT DELIMITED FI...

2018-05-02 18:47:00 878

转载 Hive之数据倾斜的原因和解决方法

摘要: Hive之数据倾斜的原因和解决方法数据倾斜在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决...

2018-04-26 23:18:13 408

原创 Hive自己如何确定reduce数和map数

控制hive任务中的map数: 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改); Hive自己如何确定reduce数: reduce个数的...

2018-04-26 21:56:25 1839

原创 Hive数据倾斜解决方案

数据倾斜的解决方案 2.1参数调节: hive.map.aggr=true Map 端部分聚合,相当于Combiner hive.groupby.skewindata=true 有数据倾斜的时候进行负载均衡,当选项设定为 true,生成的查询计划会有两个 MR Job。第一个 MR Job 中,Map 的输出结果集合会随机分布到 Reduce 中,每个 ...

2018-04-26 21:55:04 859

原创 Rowkey长度原则

Rowkey长度原则Rowkey是一个二进制码流,Rowkey的长度被很多开发者建议说设计在10~100个字节,不过建议是越短越好,不要超过16个字节。原因如下:(1)数据的持久化文件HFile中是按照KeyValue存储的,如果Rowkey过长比如100个字节,1000万列数据光Rowkey就要占用100*1000万=10亿个字节,将近1G数据,这会极大影响HFile的存储效率;(...

2018-04-26 21:53:48 6032

原创 面试系列-使用java 重写 hbase api

使用java 重写 hbase api *public class HBaseTest { public static Configuration conf = null; public static Admin admin; public static Connection connection; public static Table table;...

2018-04-26 21:52:27 153

原创 面试相关(g)

Hive增量导入是怎么做的 数据表的创建样例: CREATE TABLE YDDT ( ID string, YDJC_ID string, YDDT_DATA_TYPE string, YDDT_BUSSINESS_NOW bigint, YDDT_USER_NOW bigint, YDDT_COLLECT_TIME string, YDDT_CREATOR

2018-04-26 21:47:40 255

原创 大数据面试相关

hadoop的三大组件功能:MapReduce:    对海量数据的处理    分布式    思想             分而治之            大数据集分为小的数据集            每个数据集,尽心逻辑业务处理map            合并统计数据结果reduceHDFS:     存储海量数据    分布式    安全性           副本数据   数据是以bloc...

2018-04-21 21:32:14 188

原创 关于简单介绍Mapreduce,Hbase,Kafka,Zookeeper

1.1. zookeeper是干什么的?Zookeeper 是 分布式协调服务,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等1.2. zookeeper节点类型Znode有两种类型:短暂(ephemeral)(断开连接自己删除)持久(persistent)(断开连接不删除)Znode有四种形式的目录节点(默认是persistent )PERSISTENTPERSISTENT_SEQU...

2018-04-21 21:31:57 1030

原创 大数据Hive 面试以及知识点

Hive的工作原理流程大致步骤为:1. 用户提交查询等任务给Driver。2. 编译器获得该用户的任务Plan。3. 编译器Compiler根据用户任务去MetaStore中获取需要的Hive的元数据信息。4. 编译器Compiler得到元数据信息,对任务进行编译,先将HiveQL转换为抽象语法树,然后将抽象语法树转换成查询块,将查询块转化为逻辑的查询计划,重写逻辑查询计划,将逻辑计划转化为物理的...

2018-04-21 21:31:27 1245

原创 我的面试--spark中如何划分stage

2.spark中如何划分stage窄依赖指父RDD的每一个分区最多被一个子RDD的分区所用,表现为一个父RDD的分区对应于一个子RDD的分区两个父RDD的分区对应于一个子RDD 的分区。宽依赖指子RDD的每个分区都要依赖于父RDD的所有分区,这是shuffle类操作Stage:一个Job会被拆分为多组Task,每组任务被称为一个Stage就像Map Stage, Reduce Stage。Stag...

2018-04-21 21:30:04 6864 2

原创 Sqoop导入底层工作原理

1.Sqoop导入底层工作原理(1)在导入前,Sqoop使用JDBC来检查将要导入的数据表。(2)Sqoop检索出表中所有的列以及列的SQL数据类型。(3)把这些SQL类型的映射到java数据类型,例如(VARCHAR、INTEGER)———>(String,Integer)。(4)在MapReduce应用中将使用这些对应的java类型来保存字段的值。(5)Sqoop的代...

2018-04-21 21:29:15 5441 1

原创 hbase表设计原则

1、列族的数量及列族的势建议将HBase列族的数量设置的越少越好。当强,对于两个或两个以上的列族HBase并不能处理的很好。这是由于HBase的Flushing和压缩是基于Region的。当一个列族所存储的数据达到Flushing的阈值时,该表中所有列族将同时进行Flushing操作。这将带来不必要的I/O开销,列族越多,该特性带来的影响越大。此外,还要考虑到同一个表中不同列族所存储的记...

2018-04-15 22:05:26 422

原创 面试整理

集群简述对于企业而言,一般的集群大小规模大概是如下映射关系:集群大小小:10~30节点中:100~300节点大:1000+节点对应所需的zookeeper集群规模大概是小:3台中:5台大:7台有些同学会说,学这玩意啥用啊?我之前集群环境搭的可6了,咔咔咔一顿操作就OK了,老哥,你试想一下,2000台集群节点呢?按照我们之前的配置方式。。。。。。请开始你的表演。...

2018-04-15 22:03:06 143

原创 MapReduce优化参数

一、 MapReduce优化参数1. 资源相关参数//以下参数是在用户自己的MapReduce应用程序中配置就可以生效(1) mapreduce.map.memory.mb: 一个Map Task可使用的内存上限(单位:MB),默认为1024。如果Map Task实际使用的资源量超过该值,则会被强制杀死。(2) mapreduce.reduce.memory.mb: 一个Reduce Task可使...

2018-04-14 15:01:25 577

原创 HDFS入门

一、 HDFS入门1. HDFS基本概念1.1. HDFS介绍HDFS是Hadoop Distribute File System 的简称,意为:Hadoop分布式文件系统。是Hadoop核心组件之一,作为最底层的分布式存储服务而存在。分布式文件系统解决的问题就是大数据存储。它们是横跨在多台计算机上的存储系统。分布式文件系统在大数据时代有着广泛的应用前景,它们为存储和处理超大规模数据提供所需的扩展...

2018-04-14 10:30:23 639

原创 常见java 框架面试题

1.结合项目谈谈你对 MVC 的理解MVC 是 Model—View—Controler 的简称。即模型—视图—控制器。MVC 是一种设计模式,它强制性的把应用程序的输入、处理和输出分开。MVC 中的模型、视图、控制器它们分别担负着不同的任务。视图: 视图是用户看到并与之交互的界面。视图向用户显示相关的数据,并接受用户的输入。视图不进行任何业务逻辑处理。模型: 模型表示业务数据和业务处理。相当于...

2018-04-07 14:57:16 2093

原创 IDEA破解

http://idea.youbbs.org

2018-04-06 16:10:07 111

原创 hive安装部署

1.上传tar包2.解压 tar -zxvf hive-1.2.1.tar.gz 3.安装mysql数据库 推荐yum 在线安装4.配置hive (a)配置HIVE_HOME环境变量 vi conf/hive-env.sh 配置其中的$hadoop_home(b)配置元数据库信息 vi hive-site.xml

2018-04-01 11:42:55 153

原创 Spark集群安装

3.1 下载 spark 安装包下载地址 spark 官网: http://spark.apache.org/downloads.html这里我们使用 spark-2.0.2-bin-hadoop2.7 版本.3.2 规划安装目录/opt/bigdata3.3 解压安装包tar -zxvf spark-2.0.2-bin-hadoop2.7.tgz3.4 重命名目录mv spark-2.0.2-b...

2018-03-24 22:39:27 103

原创 hadoop ha的集群搭建

1.修改Linux主机名2.修改IP3.修改主机名和IP的映射关系 /etc/hosts ---------注意--------- 如果你们公司是租用的服务器或是使用的云主机(如华为用主机、阿里云主机等) /etc/hosts里面要配置的是内网IP地址和主机名的映射关系4.关闭防火墙5.ssh免登陆6.安装JDK,配置环境变量等 集群部署节点角色的规划(7节点) -----------------...

2018-03-17 23:56:42 156

原创 ES插件es-head安装

安装Head  插件Elasticsearch Head Plugin: 对ES进行各种操作,如查询、删除、浏览索引等。1、下载elasticsearch-head并解压在线下载:wget  https://github.com/mobz/elasticsearch-head/archive/master.zip或者到github下载:https://github.com/mobz/elastic...

2018-03-17 23:08:29 7925 1

原创 Linux环境下安装Elasticsearch

Linux环境下安装Elasticsearch(因为Elasticsearch需要jdk1.8或更高的版本才可以运行)提前下载tar.gz相关文件,下载地址:https://www.elastic.co/downloads/elasticsearch这里下载的是elasticsearch-5.5.2.tar.gz进入Linux相关目录解压下载好的tar.gz文件到这个目录Linux通过登录root...

2018-03-17 22:26:14 248

原创 Hbase集群部署

### 2.1 下载安装包```wget http://mirrors.hust.edu.cn/apache/hbase/1.3.1/hbase-1.3.1-bin.tar.gztar -zxvf hbase-1.3.1-bin.tar.gz -C /export/servers/cd ../servers/mv hbase-1.3.1 hbasevi /etc/profile-export HB...

2018-03-17 20:48:48 211

原创 kafka集群搭建

4.1、准备3台虚拟机192.168.140.128 kafka01192.168.140.129 kafka02192.168.140.130 kafka034.2、初始化环境1)安装jdk、安装zookeeper2)安装目录 安装包存放的目录:/export/software安装程序存放的目录:/export/servers数据目录:/export/data日志目录:/export/logsm...

2018-03-16 10:58:48 101

原创 Storm集群搭建

Storm集群安装部署cd /export/servers/software/tar -zxvf apache-storm-1.1.1.tar.gz -C ../servers/cd /export/servers/mv apache-storm-1.1.1 stormcd /export/servers/storm/confrm storm.yaml touch storm.yaml vi st...

2018-03-12 19:45:00 83

原创 Flume安装部署

一、 Flume安装部署l Flume的安装非常简单上传安装包到数据源所在节点上然后解压  tar -zxvf apache-flume-1.6.0-bin.tar.gz然后进入flume的目录,修改conf下的flume-env.sh,在里面配置JAVA_HOMEl 根据数据采集需求配置采集方案,描述在配置文件中(文件名可任意自定义)l 指定采集方案配置文件,在相应的节点上启动flume age...

2018-03-12 18:54:29 159

原创 离线redis的安装

离线redis的安装Redis是c语言开发的。安装redis需要c语言的编译环境。如果没有gcc需要在线安装,Yum install gcc-c++如果无法上网,参考离线安装gcc安装步骤:第一步:redis的源码包上传到linux系统。第二步:解压缩redis。 第三步:编译。make [root@localhost redis]# cd redis-3.0.0[root@localhost r...

2018-03-12 18:24:46 2082

原创 yum在线安装mysql

mysql  --查看系统之前是否已安装MySQL        rpm -qa | grep mysql        --有的话,卸载        rpm -e mysql-libs-5.1.73-5.el6_6.x86_64 --nodeps         yum install mysql mysql-server mysql-devel 完成后,用  /etc/init.d/mysq...

2018-03-12 16:11:14 398

原创 hadoop集群搭建

3.安装hadoop2.7.4 上传hadoop的安装包到服务器  hadoop-2.7.4-with-centos-6.7.tar.gz  解压安装包  tar zxvf hadoop-2.7.4-with-centos-6.7.tar.gz 注意:hadoop2.x的配置文件目录:$HADOOP_HOME/etc/hadoop---------------------------------...

2018-03-12 08:47:27 93

原创 linux下zookeeper的安装

安装前需要安装好jdkexport JAVA_HOME=/root/apps/jdk1.8.0_65export PATH=$PATH:$JAVA_HOME/binexport CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar配置免秘登录##下载安装包、解压tar -zxvf zookeeper-3.4.5.tar.gzmv zo...

2018-03-11 23:49:53 137

原创 linux常见文件设置-ssh-主机名-域名映射-防火墙等

同步时间#手动同步集群各机器时间date -s "2017-03-03 03:03:03" yum install ntpdate#网络同步时间ntpdate cn.pool.ntp.org  设置主机名vi /etc/sysconfig/networkNETWORKING=yesHOSTNAME=node-1   配置IP、主机名映射vi /etc/hosts192.168.33.101    ...

2018-03-11 23:49:19 1722

原创 linux上安装jdk

查看当前的jdk版本java –version 查找有哪些Java的包rpm -qa | grep java 依次卸载openjdk的包rpm -e --nodeps tzdata-java-2015e-1.el6.noarchrpm -e --nodeps java-1.6.0-openjdk-1.6.0.35-1.13.7.1.el6_6.x86_64rpm -e --nodeps java-...

2018-03-11 14:25:55 106

原创 关于克隆后的虚拟机网卡的问题

centos 6.7查看ifconfig 发现没有网卡然后设置: ifconfig eth1 up查看ifconfig 得到mac地址修改文件 /etc/systemconfig/network-scripts/ifcfg-eth0改名为ifcfg-eth1打开文件:1.更改名字为eth1 2.删除UUID 3.更改MAC地址 centos 6.9 在/etc/udev/rui.d下面的70...

2018-03-11 13:58:27 203

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除