自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 收藏
  • 关注

转载 Sqoop import额外的配置属性

官网原文如下:9.2.10. Additional Import Configuration PropertiesThere are some additional properties which can be configured by modifying conf/sqoop-sit...

2019-08-24 19:42:00 166

转载 Sqoop并行度控制

7.2.4 并行度控制Sqoop并行地从大多数数据库源导入数据。您可以使用-m或--num-mappers参数指定用于执行导入的map任务(并行进程)的数量。每个参数都取一个整数值,该整数值对应于要使用的并行度。默认情况下,使用四个任务。一些数据库可以通过将这个值增加到8或16来改善性能。不...

2019-08-24 18:19:00 2700

转载 Azkaban安装使用操作手册

上传azkaban-3.60.0-bin.zip解压azkaban-3.60.0-bin.zipunzip azkaban-3.60.0-bin.zip创建软连接ln -s azkaban-3.60.0-bin azkaban进入主目录cd azkaban查看...

2019-06-28 22:53:00 192

转载 Azkaban源码编译

下载源码包: azkaban-3.60.0.ziphttps://github.com/azkaban/azkaban/releases解压源码包unzip azkaban-3.60.0.zipcd azkaban-3.60.0/SQL文件:cd azkaban-db/../...

2019-06-28 22:44:00 221

转载 CDH集群Kafka服务升级操作手册

CDH版本:5.7.0新Kafka版本:1.0.1一、下载Kafka parcel文件http://archive.cloudera.com/kafka/parcels/3.1.1.2/KAFKA-3.1.1-1.3.1.1.p0.2-sles11.parcelKAFKA-3....

2019-06-28 22:11:00 1091

转载 Git教程

Git教程链接:Git教程 转载于:https://my.oschina.net/u/3446722/blog/1523224

2017-08-25 08:25:00 35

转载 HiveQL计算连续天数问题

现有商户每日交易汇总数据文件merch_trade_stat.txt,如下:(三列数据以','分隔,分别是商户ID、交易日期、日交易金额)[root@node1 ~]$ more merch_trade_day_stat.txt1,2017-07-01,1001,2017-07-02,2...

2017-08-10 10:59:00 439

转载 HBase-1.1.10表备份

使用CopyTable进行HBase表备份$HBASE_HOME/bin/hbase org.apache.hadoop.hbase.mapreduce.CopyTable --new.name=newtable --peer.adr=zookeeperhbase.zookeeper.quo...

2017-07-31 15:46:00 85

转载 Kafka_2.11-0.10.1.0官方文档翻译

看到一个kafka官网文档翻译的网站,很不错。附上链接:Kafka_2.11-0.10.1.0官方文档翻译 转载于:https://my.oschina.net/u/3446722/b...

2017-07-20 10:44:00 126

转载 Spark-1.6.0官方文档翻译

并发编程网翻译的Spark官网文档链接:Spark-1.6.0官方文档翻译 转载于:https://my.oschina.net/u/3446722/blog/1083149...

2017-06-30 14:59:00 64

转载 Hive 日期格式化

Hive中日期格式转换,可参考下面的例子from_unixtime(unix_timestamp('20170608111213', 'yyyyMMddHHmmss'), 'yyyy-MM-dd HH:mm:ss') ...

2017-06-29 10:28:00 3640

转载 智力题

【绳子类】 1、 一条绳子(粗细不均,长短不一),从一头点燃,全部烧完要耗时1个小时,问如何用这条绳子测出半个小时?(初级) 2、 有一些绳子(粗细不均,长短不一),但是每根绳子点燃后都烧一个小时,问用什么方法可以用这些绳子计算45分钟的时间,计算1小时15分钟时间呢?(中级) (分析)...

2017-06-27 09:11:00 146

转载 离线环境获取Docker镜像

离线环境获取Docker镜像离线环境获取Docker镜像,有两种方式一. 搭建本地Docker仓库,从本地仓库中获取Docker镜像这种方式暂不详述。二. 在可以访问外网的服务器上,下载Docker镜像,通过镜像迁移的方式,使离线服务器获取Docker镜像环境准备服务器n...

2017-06-20 11:36:00 301

转载 Solr Cloud-5.3.1安装

环境准备:安装并配置好Java Runtime Environment (JRE) 1.7 或更高版本。通过以下命令验证[root@node01 ~]# java -versionjava version "1.7.0_80"Java(TM) SE Runtime Environm...

2017-06-20 10:03:00 94

转载 使用Docker安装Oracle 12c

使用Docker安装Oracle 12c假设你的服务器已成功安装Docker,继续进行以下操作:1. 启动Docker[root@node01 ~]# service docker start2. 从远程仓库搜索oracle image[root@node01 ~]# docker...

2017-06-19 19:28:00 843

转载 关于Hive内嵌模式、本地模式和远程模式

下面基于《Hadoop权威指南 第二版》374页图,来谈谈Hive metastore的三种安装模式:**Embedded metastore:内嵌模式。**特点是:hive服务和metastore服务运行在同一个进程中,derby服务也运行在该进程中。该模式无需特殊配置。**Loca...

2017-06-18 17:59:00 394

转载 Hive-1.2.2操作HBase-1.1.10

Hive与HBase整合1、在安装好HBase的服务器上安装Hive2、配置环境变量HBASE_HOME=<hbase-install-dir>3、进入Hive Cli,创建与HBase相关联的表即可# 在hive中创建表t_event,会在hbase中同步创建表event...

2017-06-14 20:28:00 80

转载 Hive-1.2.2安装(本地模式)

Hive-1.2.2安装(本地模式)必要条件Java 1.7 (Hive 1.2 及以上版本需要 Java 1.7 或更高版本)Hadoop 2.x (推荐), 1.x (不支持 Hive 2.0.0 以上版本).配置好环境变量HADOOP_HOME=<hadoop-ins...

2017-06-14 20:16:00 118

转载 HBase-1.1.10集群间数据迁移

# Export and Import# 步骤: (1)在old cluster上执行: hbase org.apache.hadoop.hbase.mapreduce.Export test hdfs://new cluster ip:9000/tmp/test# (2)在new...

2017-06-09 20:01:00 76

转载 HBase-1.1.10 Web管理工具

HBase Web管理工具Web管理工具是HBase对外提供的一个Web接口,可以通过浏览器进行访问HMaster的Web接口端口参数:hbase.master.info.port 默认值:16010http://hbase_master_server:16010HRegio...

2017-06-09 19:35:00 275

转载 Elasticsearch-5.3.0集群搭建

本文档为Elasticsearch(以下简称ES)集群的安装配置文档。本次安装的ES集群由服务器xwhadoop225、xwhadoop226两个节点组成。 1 安装之前需要配置好Java环境,需要Java8及以上版本 1.1 验证java已正确安装 [roo...

2017-05-23 11:04:00 191

转载 tar打包排除子目录

现需打包test目录为tet.tar.gz,并排除test目录下的data1和data2目录: tar test.tar.gz test/ --exclude=test/data1 --exclude=test/data2 注意:--exclude后面的排除目录后不能带/ ,否则不...

2017-05-22 10:13:00 236

转载 Flume-1.6.0自定义拦截器(Interceptor)

Flume中的拦截器是插件式的组件,作用在source和channel之间。可以实现source接收的事件,在写入channel之前,进行转换或者删除。Flume官方提供了一些常用的拦截器,也可以自定义拦截器对日志进行处理。自定义拦截器只需以下几步: 使用的Flume版...

2017-05-19 16:22:00 140

转载 使用Ambari-2.2.2快速构建大数据处理集群

本文档为使用Ambari快速构建大数据集群的参考文档。我们将使用下表所示3台服务器构建大数据集群,使用xwhadoop225作为Ambari Server,使用xwhadoop225~xwhadoop227作为Ambari Agent。具体步骤如下: 官方参考文档: ...

2017-05-18 09:27:00 99

转载 Spark-2.1.1概述

Spark 概述 Apache Spark是一个快速的、通用的集群计算系统。它提供了基于Java、Scala、Python和R语言的高级API,和一个支持通常的任务执行图的最佳化引擎。它也提供了一个丰富的较高层次的工具,包括用于SQL和结构化数据处理的Spark SQL,用于机器学...

2017-05-01 19:28:00 139

转载 Spark SQL, DataFrames and Datasets(Spark-2.1.1)指南

Overview(概述) Spark SQL是一个用于结构化数据处理的Spark模块。与基础的Spark RDD API不同,Spark SQL中的接口提供了更多的关于数据和执行计算的结构化信息。Spark SQL在内部利用这些额外的信息去执行特别的优化。可以通过SQL或者Data...

2017-05-01 16:35:00 79

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除