批量:Hive/Spark/Hbas
文章平均质量分 65
大数据部
这个作者很懒,什么都没留下…
展开
-
太多的.hive-stagingxxx文件的处理
跑一段时间的Hive程序之后,偶尔打开对应的HDFS文件夹,才发现在其目录下,产生了太多的.hive-staging_hive_date-time_ XXX文件。仔细一看,才发现几乎每个HIVE的查询语句都会产生这样的一个文件,这种文件会随着时间积累不断增加。这也是前段时间造成HDFS目录故障的原因之一。查了网上的相关说明,也没有比较好的说明,可能这是基转载 2016-11-22 23:34:35 · 1641 阅读 · 0 评论 -
Hadoop: CDH 5--不同步的 JournalNode
Hadoop: CDH 5--不同步的 JournalNodeAuthor: Fucloudera manager出现了hdfs的警告,类似下图: 解决的思路是:1、首先解决简单的问题,查看警告提示的设置的阀值时多少,这样就可以快速定位到问题在哪了,果然JournalNode Sync Status提示最先消去;2、然后解决Sync Status问题,首先找到提示语转载 2016-09-15 18:40:09 · 5988 阅读 · 2 评论 -
org.apache.hadoop.ipc.Client: Retrying connect to server异常的解决
org.apache.hadoop.ipc.Client: Retrying connect to server异常的解决转载 2016-03-15 17:43:36 · 875 阅读 · 0 评论 -
Spark配置文件详解
kwu --- Spark配置文件详解原创 2016-03-19 13:36:29 · 3249 阅读 · 0 评论 -
Spark中使用scala方式- 操作Hbase 表:增删改查
Auth: FuRenjie在build.sbt中配置依赖(行之间需要空格)ame := "test2"scalaVersion := "2.10.4"libraryDependencies ++= Seq( "org.apache.spark" % "spark-core" % "1.0.0", "org.apache.hbase" % "hbase" % "1转载 2015-12-26 15:50:16 · 4360 阅读 · 0 评论 -
Hive中“一行变多行”、“多行合成一行”的实现实例
[ Author: Fu Renjie ]Ø 一行变多行过程:// 一行拆分多行的操作:主要是拆分subcat不为空的记录,sql语句如下:insert into table today_cust_behavior_singleselect msisdn ,flow_start,flow_end,kk as subcatfrom today_cust_behavi原创 2015-10-10 16:19:24 · 8480 阅读 · 0 评论 -
Spark将HDFS数据导入到HBase
Author: FuRenjie本程序运行环境:Spark+HDFS+HBase+Yarn hbase表结构为:表名table,列族fam,列为col。第一步:上代码 object inputHbase:import org.apache.hadoop.hbase.client._import org.apache.hadoop.hbase.util转载 2015-12-26 15:32:32 · 1571 阅读 · 0 评论 -
Kafka和Spark Streaming Java版本集成并将数据实时写入HBase及代码
问题导读1.Kafka和Spark Streaming Java版本集成并将数据实时写入HBase,pom.xml是如何配置的?2.HBaseCounterIncrementor.java都实现了什么功能?3.SparkStreamingFromFlumeToHBaseExample.java实现了哪些功能?Kafka和Spark Streaming J转载 2015-12-26 15:30:29 · 2839 阅读 · 0 评论 -
Spark PageRank
如果不考虑出度为0的节点情况,方法很easy,参考官方的code。考虑出度为0 有两个版本,V2是在V1基础上的修改完善版本,V1版本记录了各种出错记录,V2版自我感觉没有问题了。转载 2016-01-08 18:29:48 · 689 阅读 · 0 评论 -
自定义cloudera manager服务端与客户端的依赖包
[Author]: kwu --- 自定义cloudera manager服务端依赖包原创 2015-10-12 10:29:56 · 1464 阅读 · 0 评论 -
[解决]Spark运行中java.net.UnknownHostException: nameservice1的异常
[Author]: kwu_和讯大数据 解决Spark运行中java.net.UnknownHostException: nameservice1的异常,nameservice1是配置hdfs中用到的HA,在执行spark程序时出现 java.net.UnknownHostException: nameservice1异常,找到正确的路径。原创 2015-09-08 16:16:34 · 11469 阅读 · 1 评论 -
查看yarn当前运行任务列表
Author: kwu --- 查看yarn当前运行任务列表,可使用如下命令查看:原创 2015-07-22 09:45:38 · 10183 阅读 · 1 评论 -
分析MapReduce与Storm的异同
[Author]: kwu --- 分析MapReduce与Storm的异同原创 2015-06-22 12:40:19 · 2497 阅读 · 0 评论 -
升级CDH到5.7.0
升级CDH到5.7.0最近对CDH进行升级,从5.4.8升级到5.7.0,主要想升级spark和hbase。What’s New In CDH 5.7.x详细信息参考What’s New In CDH 5.7.x操作系统支持 RHEL/CentOS 6.6, 6.7, 7.1, 7.2JDK版本必须1.7或以上。Spark升级到1.6.0,支持hive on spark转载 2016-09-05 10:33:56 · 2726 阅读 · 0 评论 -
MapReduce作业运行流程
MapReduce作业运行流程下面贴出我用visio2010画出的流程示意图: 流程分析:1.在客户端启动一个作业。2.向JobTracker请求一个Job ID。3.将运行作业所需要的资源文件复制到HDFS上,包括MapReduce程序打包的JAR文件、配置文件和客户端计算所得的输入划分信息。这些文件都存放在JobTracker专门为该作业转载 2016-09-05 10:34:59 · 1831 阅读 · 0 评论 -
hbase日常运维管用命令,region管理
hbase日常运维管用命令,region管理1 Hbase日常运维1.1 监控Hbase运行状况1.1.1 操作系统1.1.1.1 IO群集网络IO,磁盘IO,HDFS IOIO越大说明文件读写操作越多。当IO突然增加时,有可能:1.compact队列较大,集群正在进行大量压缩操作。2.正在执行mapreduce作业转载 2016-10-20 00:13:18 · 3636 阅读 · 0 评论 -
建立 HDFS 各类目录权限 及shell 脚本代码
Athor: F# 1、创建默认组及权限:#!/bin/bash### 初始化默认权限sudo -u hdfs hdfs dfs -chown -R root:root /hivesudo -u hdfs hdfs dfs -chmod -R 771 /hivesudo -u hdfs hdfs dfs -chown -R root:root /dwsudo原创 2016-10-19 23:12:49 · 1758 阅读 · 0 评论 -
CDH中配置HDFS HA 及shell 脚本
最近又安装 hadoop 集群, 故尝试了一下配置 HDFS 的 HA,CDH4支持Quorum-based Storage和shared storage using NFS两种HA方案,而CDH5只支持第一种方案,即 QJM 的 HA 方案。关于 hadoop 集群的安装部署过程你可以参考 使用yum安装CDH Hadoop集群 或者 手动安装 hadoop 集群的过程。集群转载 2016-10-18 20:41:00 · 2133 阅读 · 0 评论 -
Hive权限控制和超级管理员的实现
Hive权限机制:Hive从0.10可以通过元数据控制权限。但是Hive的权限控制并不是完全安全的。基本的授权方案的目的是防止用户不小心做了不合适的事情。 先决条件:为了使用Hive的授权机制,有两个参数必须在hive-site.xml中设置: hive.security.authorization.enabled true e转载 2016-10-02 15:49:24 · 882 阅读 · 0 评论 -
Hive的Security配置
《Programming Hive》的Security章节取出来,翻译了一下。Hive还是支持相当多的权限管理功能,满足一般数据仓库的使用。 Hive由一个默认的设置来配置新建文件的默认权限。Xml代码 property> name>hive.files.umask.valuename> value>0002valu转载 2016-10-02 15:47:46 · 555 阅读 · 0 评论 -
迁移Cloudera Manager Server
参考 Moving the Cloudera Manager Server to a New HostDatabase Backing up and Restore根据官方的参考文档,如果在另外一个节点上新建一个供Cloudera Manager使用的数据库,需要把原来的数据库的内容进行back up,然后在新的数据库中进行restore。然而,怎样restore,确实语焉原创 2016-09-15 18:32:48 · 2187 阅读 · 0 评论 -
cloudera manager下的hive权限配置
公司运营、BI以及财务不同部门不同人员需要hive数据查询服务,所以需要分配不同的权限给相关人员权限配置主要涉及两项:- 认证(authentication):验证用户所用的身份是否是对的- 授权(authorization):验证用户所用身份操作是否有权限cloudera集成的hive认证支持常用的LDAP和kerberos,授权使用的是他自家的sentry,sentry目前还处转载 2016-09-05 11:11:06 · 1705 阅读 · 0 评论 -
Hive 权限控制
Hive 权限控制字数1135 阅读551 评论0 喜欢0说明认证(authentication):验证用户所用的身份是否是对的授权(authorization):验证用户所用身份操作是否有权限目前hive(版本0.12.0)支持简单的权限管理,默认情况下是不开启,这样所有的用户都具有相同的权限,同时也是超级管理员,也就对hive中的所有表都有查看和改动的权利,转载 2016-09-05 11:09:41 · 1581 阅读 · 0 评论 -
Sqoop使用分析
Sqoop的Mysql数据导出实现分两种,一种是使用JDBC方式从Mysql中获取数据,一种是使用MysqlDump命令从MySql中获取数据,默认是 JDBC方式获取数据,如果要使用dump方式获取数据,需要添加 -direct 参数。先说第一种:配置语句时,需要添加 $CONDITIONS 点位符,比如:SELECT id FROM user WHERE $CONDITIONS,S转载 2016-09-05 11:04:33 · 2662 阅读 · 0 评论 -
Spark Streaming createDirectStream保存kafka offset(JAVA实现)
问题描述(http://blog.csdn.net/xueba207/article/details/50381821)最近使用spark streaming处理kafka的数据,业务数据量比较大,就使用了kafkaUtils的createDirectStream()方式,此方法直接从kafka的broker的分区中读取数据,跳过了zookeeper,并且没有receiver,是spa转载 2016-09-05 11:00:45 · 2394 阅读 · 2 评论 -
Spark history Server 配置过程
Author: FuSpark history Server产生背景以standalone运行模式为例,在运行Spark Application的时候,Spark会提供一个WEBUI列出应用程序的运行时信息;但该WEBUI随着Application的完成(成功/失败)而关闭,也就是说,Spark Application运行完(成功/失败)后,将无法查看Application的历史记录;转载 2016-09-05 10:53:06 · 962 阅读 · 0 评论 -
[Hadoop源码详解]之一MapReduce篇之InputFormat
1. 概述我们在设置MapReduce输入格式的时候,会调用这样一条语句:job.setInputFormatClass(KeyValueTextInputFormat.class);这条语句保证了输入文件会按照我们预设的格式被读取。KeyValueTextInputFormat即为我们设定的数据读取格式。所有的输入格式类都继承自In转载 2016-09-05 10:38:45 · 639 阅读 · 0 评论 -
HBase - 数据写入流程解析
HBase - 数据写入流程解析众所周知,HBase默认适用于写多读少的应用,正是依赖于它相当出色的写入性能:一个100台RS的集群可以轻松 地支撑每天10T的写入量。当然,为了支持更高吞吐量的写入,HBase还在不断地进行优化和修正,这篇文章结合0.98版本的源码全面地分析HBase 的写入流程,全文分为三个部分,第一部分介绍客户端的写入流程,第二部分介绍服务器端的写入流程,最后再重转载 2016-09-05 10:37:37 · 1548 阅读 · 0 评论 -
基于Hive及Sqoop的每日PV、UV、IP定时分析
[Author]: kwu -- 基于Hive及Sqoop的每日PV、UV、IP定时分析原创 2015-05-24 15:42:23 · 2730 阅读 · 0 评论 -
基于CDH5.4配置挂载HDFS文件系统
[Author]: kwu -- 基于CDH5.4配置挂载HDFS文件系统 hadoop-fuse-dfs原创 2015-05-02 16:28:19 · 1908 阅读 · 0 评论 -
自动化挂载HDFS文件系统到本地目录
[Author]: kwu --- 自动化hdfs挂盘原创 2015-09-25 11:00:28 · 1491 阅读 · 0 评论 -
hive使用技巧(一)自动化动态分配表分区及修改hive表字段名称
Author:FuRenjie kwu -- hive使用技巧(一)自动化动态分配表分区及修改hive表字段名称原创 2015-05-29 15:45:37 · 3623 阅读 · 0 评论 -
开发HIVE的UDTF自定义函数
[Author]: kwu -- UDTF(User-Defined Table-Generating Functions) 用来解决 输入一行输出多行(On-to-many maping) 的需求,开发HIVE的UDTF自定义函数具体步骤如下:原创 2015-05-19 13:19:19 · 2873 阅读 · 0 评论 -
使用sqoop --options-file 导入hive数据
[Author]: kwu -- 使用sqoop --options-file 导入hive数据原创 2015-05-07 13:50:10 · 2396 阅读 · 1 评论 -
每日定时导入hive数据仓库的自动化脚本
[Author]: kwu -- 每日定时导入hive数据仓库的自动化脚本原创 2015-05-11 11:01:37 · 4052 阅读 · 0 评论 -
创建GZIP压缩格式的HIVE表
[Author]: kwu -- 创建GZIP压缩格式的HIVE表原创 2015-05-06 13:37:22 · 5298 阅读 · 0 评论 -
开发HIVE的UDF自定义函数
[Author]: kwu -- 开发HIVE的UDF自定义函数原创 2015-05-06 13:54:43 · 2151 阅读 · 0 评论 -
【解决】Spark On Yarn执行中executor内存限制问题
[Author]: kwu -- Required executor memory (xxx MB) is above the max threshold (xxx MB) of this cluster!原创 2015-05-01 16:05:32 · 6948 阅读 · 0 评论 -
关于HIVE数据仓库的基本操作
[Author]: kwu -- 关于HIVE数据仓库的基本操作原创 2015-05-13 10:17:10 · 2040 阅读 · 0 评论 -
基于CDH5.4的hive与hbase的整合
[Author]: kwu -- 基于CDH5.4的hive与hbase的整合原创 2015-05-05 10:46:48 · 2648 阅读 · 0 评论