chennaihuan0842-CSDN博客

转载 Sqoop import额外的配置属性

官网原文如下:9.2.10. Additional Import Configuration PropertiesThere are some additional properties which can be configured by modifying conf/sqoop-sit...

2019-08-24 19:42:00 184

转载 Sqoop并行度控制

7.2.4 并行度控制Sqoop并行地从大多数数据库源导入数据。您可以使用-m或--num-mappers参数指定用于执行导入的map任务(并行进程)的数量。每个参数都取一个整数值，该整数值对应于要使用的并行度。默认情况下，使用四个任务。一些数据库可以通过将这个值增加到8或16来改善性能。不...

2019-08-24 18:19:00 2758

转载 Azkaban安装使用操作手册

上传azkaban-3.60.0-bin.zip解压azkaban-3.60.0-bin.zipunzip azkaban-3.60.0-bin.zip创建软连接ln -s azkaban-3.60.0-bin azkaban进入主目录cd azkaban查看...

2019-06-28 22:53:00 209

转载 Azkaban源码编译

下载源码包: azkaban-3.60.0.ziphttps://github.com/azkaban/azkaban/releases解压源码包unzip azkaban-3.60.0.zipcd azkaban-3.60.0/SQL文件:cd azkaban-db/../...

2019-06-28 22:44:00 233

转载 CDH集群Kafka服务升级操作手册

CDH版本：5.7.0新Kafka版本：1.0.1一、下载Kafka parcel文件http://archive.cloudera.com/kafka/parcels/3.1.1.2/KAFKA-3.1.1-1.3.1.1.p0.2-sles11.parcelKAFKA-3....

2019-06-28 22:11:00 1158

转载 Git教程

Git教程链接：Git教程转载于:https://my.oschina.net/u/3446722/blog/1523224

2017-08-25 08:25:00 42

转载 HiveQL计算连续天数问题

现有商户每日交易汇总数据文件merch_trade_stat.txt，如下：(三列数据以','分隔，分别是商户ID、交易日期、日交易金额)[root@node1 ~]$ more merch_trade_day_stat.txt1,2017-07-01,1001,2017-07-02,2...

2017-08-10 10:59:00 460

转载 HBase-1.1.10表备份

使用CopyTable进行HBase表备份$HBASE_HOME/bin/hbase org.apache.hadoop.hbase.mapreduce.CopyTable --new.name=newtable --peer.adr=zookeeperhbase.zookeeper.quo...

2017-07-31 15:46:00 100

转载 Kafka_2.11-0.10.1.0官方文档翻译

看到一个kafka官网文档翻译的网站，很不错。附上链接：Kafka_2.11-0.10.1.0官方文档翻译转载于:https://my.oschina.net/u/3446722/b...

2017-07-20 10:44:00 143

转载 Spark-1.6.0官方文档翻译

并发编程网翻译的Spark官网文档链接：Spark-1.6.0官方文档翻译转载于:https://my.oschina.net/u/3446722/blog/1083149...

2017-06-30 14:59:00 74

转载 Hive 日期格式化

Hive中日期格式转换，可参考下面的例子from_unixtime(unix_timestamp('20170608111213', 'yyyyMMddHHmmss'), 'yyyy-MM-dd HH:mm:ss') ...

2017-06-29 10:28:00 3665

转载智力题

【绳子类】 1、一条绳子（粗细不均，长短不一），从一头点燃，全部烧完要耗时1个小时，问如何用这条绳子测出半个小时？（初级） 2、有一些绳子（粗细不均，长短不一），但是每根绳子点燃后都烧一个小时，问用什么方法可以用这些绳子计算45分钟的时间，计算1小时15分钟时间呢？（中级）（分析）...

2017-06-27 09:11:00 164

转载离线环境获取Docker镜像

离线环境获取Docker镜像离线环境获取Docker镜像，有两种方式一. 搭建本地Docker仓库，从本地仓库中获取Docker镜像这种方式暂不详述。二. 在可以访问外网的服务器上，下载Docker镜像，通过镜像迁移的方式，使离线服务器获取Docker镜像环境准备服务器n...

2017-06-20 11:36:00 317

转载 Solr Cloud-5.3.1安装

环境准备：安装并配置好Java Runtime Environment (JRE) 1.7 或更高版本。通过以下命令验证[root@node01 ~]# java -versionjava version "1.7.0_80"Java(TM) SE Runtime Environm...

2017-06-20 10:03:00 118

转载使用Docker安装Oracle 12c

使用Docker安装Oracle 12c假设你的服务器已成功安装Docker，继续进行以下操作：1. 启动Docker[root@node01 ~]# service docker start2. 从远程仓库搜索oracle image[root@node01 ~]# docker...

2017-06-19 19:28:00 868

转载关于Hive内嵌模式、本地模式和远程模式

下面基于《Hadoop权威指南第二版》374页图，来谈谈Hive metastore的三种安装模式：**Embedded metastore：内嵌模式。**特点是：hive服务和metastore服务运行在同一个进程中，derby服务也运行在该进程中。该模式无需特殊配置。**Loca...

2017-06-18 17:59:00 436

转载 Hive-1.2.2操作HBase-1.1.10

Hive与HBase整合1、在安装好HBase的服务器上安装Hive2、配置环境变量HBASE_HOME=<hbase-install-dir>3、进入Hive Cli，创建与HBase相关联的表即可# 在hive中创建表t_event，会在hbase中同步创建表event...

2017-06-14 20:28:00 93

转载 Hive-1.2.2安装（本地模式）

Hive-1.2.2安装（本地模式）必要条件Java 1.7 (Hive 1.2 及以上版本需要 Java 1.7 或更高版本)Hadoop 2.x (推荐), 1.x (不支持 Hive 2.0.0 以上版本).配置好环境变量HADOOP_HOME=<hadoop-ins...

2017-06-14 20:16:00 131

转载 HBase-1.1.10集群间数据迁移

# Export and Import# 步骤: (1)在old cluster上执行： hbase org.apache.hadoop.hbase.mapreduce.Export test hdfs://new cluster ip:9000/tmp/test# (2)在new...

2017-06-09 20:01:00 85

转载 HBase-1.1.10 Web管理工具

HBase Web管理工具Web管理工具是HBase对外提供的一个Web接口，可以通过浏览器进行访问HMaster的Web接口端口参数：hbase.master.info.port 默认值：16010http://hbase_master_server:16010HRegio...

2017-06-09 19:35:00 289

转载 Elasticsearch-5.3.0集群搭建

本文档为Elasticsearch(以下简称ES)集群的安装配置文档。本次安装的ES集群由服务器xwhadoop225、xwhadoop226两个节点组成。 1 安装之前需要配置好Java环境，需要Java8及以上版本 1.1 验证java已正确安装 [roo...

2017-05-23 11:04:00 201

转载 tar打包排除子目录

现需打包test目录为tet.tar.gz，并排除test目录下的data1和data2目录： tar test.tar.gz test/ --exclude=test/data1 --exclude=test/data2 注意：--exclude后面的排除目录后不能带/ ，否则不...

2017-05-22 10:13:00 265

转载 Flume-1.6.0自定义拦截器(Interceptor)

Flume中的拦截器是插件式的组件，作用在source和channel之间。可以实现source接收的事件，在写入channel之前，进行转换或者删除。Flume官方提供了一些常用的拦截器，也可以自定义拦截器对日志进行处理。自定义拦截器只需以下几步：使用的Flume版...

2017-05-19 16:22:00 156

转载使用Ambari-2.2.2快速构建大数据处理集群

本文档为使用Ambari快速构建大数据集群的参考文档。我们将使用下表所示3台服务器构建大数据集群，使用xwhadoop225作为Ambari Server，使用xwhadoop225～xwhadoop227作为Ambari Agent。具体步骤如下：官方参考文档： ...

2017-05-18 09:27:00 113

转载 Spark-2.1.1概述

Spark 概述 Apache Spark是一个快速的、通用的集群计算系统。它提供了基于Java、Scala、Python和R语言的高级API，和一个支持通常的任务执行图的最佳化引擎。它也提供了一个丰富的较高层次的工具，包括用于SQL和结构化数据处理的Spark SQL，用于机器学...

2017-05-01 19:28:00 160

转载 Spark SQL, DataFrames and Datasets(Spark-2.1.1)指南

Overview(概述) Spark SQL是一个用于结构化数据处理的Spark模块。与基础的Spark RDD API不同，Spark SQL中的接口提供了更多的关于数据和执行计算的结构化信息。Spark SQL在内部利用这些额外的信息去执行特别的优化。可以通过SQL或者Data...

2017-05-01 16:35:00 92

chennaihuan0842的博客