- 博客(31)
- 资源 (3)
- 收藏
- 关注
原创 Greenplum的两种优化器
Greenplum 6.5.0Greenplum中有两个优化器,一个是Postgres query optimizer(Postgresql自带的优化器,简称PQO),一个是GPORCA(Greenplum自己开发的新一代优化器,简称GPO)。其中GPO在某些方面进行了优化,让其更适合在大数据量的进行数据分析,性能会更好。但是在数据量不是特别大的情况下,两种优化器的差异不是特别大,甚至PQO的性...
2021-04-27 14:26:04 1919
原创 Sqoop抽取MySQL到Hive报ClassCastException
MySQL 8.0Sqoop 1.4.6这种情况可能是由于sqoop中mysql的驱动版本太低导致,将mysql驱动换成8.0的即可
2020-04-20 11:45:07 384
原创 Greenplum 6.5.0安装
安装jdk集群上所有机器上都需要安装jdk 8或者以上的版本存储Greenplum只支持xfs格式的存储安装依赖yum install apr apr-util bash bzip2 curl krb5-devel libcurl libevent libxml2 libyaml zlib openldap openssh openssl openssl-libs perl readli...
2020-03-19 14:12:32 158
原创 Sqoop抽取MySQL中tinyint类型数据只有0和1的问题
问题描述使用Sqoop抽取MySQL数据到Hive时,会发现MySQL中tinyint类型的数据在抽到Hive中只有0和1,其他的数值都被替换了,很诡异。其实Sqoop的官方文档给出了解释并给出了解决方案:27.2.5. MySQL: Import of TINYINT(1) from MySQL behaves strangelyProblem: Sqoop is treating TIN...
2020-01-06 11:11:35 1234
原创 Flume自定义Source
讲解一下如何自定义一个Flume的Source,很简单,下面是一个自定义Source,从Kafka中读取数据的Demo.package death.flume;import com.google.common.base.Preconditions;import org.apache.flume.Context;import org.apache.flume.EventDeliveryEx...
2019-11-20 11:29:59 241
原创 Java操作Kudu
package kudu;import org.apache.kudu.ColumnSchema;import org.apache.kudu.Schema;import org.apache.kudu.Type;import org.apache.kudu.client.*;import java.util.LinkedList;import java.util.List;p...
2019-11-06 14:22:53 422
原创 Java访问Kudu报NoLeaderFoundException异常
通过Java API访问Kudu时报NoLeaderFoundException错误,是找不到master节点中的leader角色,一般应该将Kudu中所有的master节点都写进代码中,但若还是报这个错误的话,就是不能使用IP进行访问或者主机名访问。这个时候可以通过kudu命令行来查看一下,我这里使用是impala连接的Kudu,登录impala命令行:...
2019-11-06 11:33:51 1069
原创 CDH 6.3离线安装
安装前准备准备机器,机器之间root用户配置ssh免密登录机器关闭防火墙机器之间配置时间同步准备安装所需的CDH软件CDHparcelsrepodatayum源
2019-10-14 11:06:07 8425
原创 Hive命令行
很多人会认为Hive命令行只是一个执行HQL语句的控制台,其实它没你想的那么简单,还有很多实用的用法,这里就简单介绍一下。查看Hive的帮助文档[hdfs@cdh01 ~]$ hive -Husage: hive -d,--define <key=value> Variable subsitution to apply to hive ...
2019-09-04 14:48:54 4229
原创 Sqoop导入数据库数据到Hive的两种方式
通过Sqoop将关系型数据库数据到Hive有两种方式,一种是Sqoop API,一种是使用HCatalog API。两种方式略有不同,各有优缺点,这里主要介绍两者的区别与共同点。Sqoop方式Sqoop方式基本的命令如下:sqoop import \--hive-import \--connect 'jdbc:mysql://localhost:3306/test' \--userna...
2019-08-30 14:22:24 5140
原创 MySQL修改密码安全策略
MySQL跳过密码登录编辑/etc/my.cnf文件,添加skip-grant-tables重启MySQL服务即可service mysqld restartmysql -uroot -pxxxx重置密码安全策略一般通过RPM包安装的MySQL,都会随机生成一个临时密码,密码在/var/lib/mysqld.log文件中,第一次登陆,需要到该文件中获取密码。登陆之后,不管进行什么...
2019-08-09 10:45:17 4047
原创 Could not flush and close the file system output stream
最近发现了一个问题,虽然是他人给自己挖的一个坑,但是还是记录一下吧。一个Flink消费Kafka的程序,Flink on Yarn模式,之前在测试和生产环境发布,都是正常的,没有任何问题,但是后来把测试环境重启了一下,又重新发了一次,竟然报错了,错误如下:2019-07-01 15:19:25,984 INFO org.apache.flink.runtime.taskmanager.Task...
2019-08-05 14:29:18 3241 1
原创 启动Beeline报错OutOfMemoryError
在spark或者hive中启动beeline的时候,突然报了java.lang.OutOfMemoryError,错误如下:Exception in thread "main" java.lang.OutOfMemoryError: Java heap space at java.util.Arrays.copyOf(Arrays.java:2271) at java.io.ByteArra...
2019-08-02 15:01:17 1256
原创 Hive几种数据导入导出的方式
Hive中数据导入导出还是很常用的,下面简单记录一下这几种方式,方便查阅。数据导入在将文件中的数据导入都Hive表中的时候,字段的分隔符只有在建表的时候指定,导入的时候无法指定字段分隔符。本地文件系统导入到Hivehive> load data local inpath '/home/hdfs/user.txt' into table user;分区表hive> loa...
2019-08-01 14:46:49 329
翻译 Netty创建TCP客户端
客户端Netty可以用来创建TCP客户端。这里我们将说明如何使用Netty创建一个TCP客户端。使用Netty创建客户端需要一下几个步骤:创建一个EventLoopGroup创建和配置一个Bootstrap创建一个ChannelInitializer启动客户端每个步骤都会在下面进行讲解,下面是一个完整的使用Netty创建TCP客户端的例子:EventLoopGroup group...
2019-07-09 14:52:57 5350
翻译 Netty创建TCP服务端
服务端Netty的服务器其中之一便是TCP服务器。想要创建TCP服务器你必须:创建一个EventLoopGroup创建和配置ServerBootstrap创建一个ChannelInitializer启动服务器下面是一个完整的使用Netty创建TCP服务器的代码例子:EventLoopGroup group = new NioEventLoopGroup();try{ ...
2019-07-09 14:50:53 2237
原创 Nginx源码安装
Nginx是一款轻量级的Web服务器/反向代理服务器及电子邮件(IMAP/POP3)代理服务器,其特点是占有内存少,并发能力强。企业中用的很多,下面就介绍一下Nginx的安装。Nginx一般有两个版本,分别是稳定版和开发版,您可以根据您的目的来选择这两个版本的其中一个,下面是把Nginx安装到/usr/local/nginx目录下的详细步骤。这里我们选用源码编译安装的方式,在安装Nginx之前...
2019-07-09 14:20:35 112
原创 Linux中使用tar命令进行分卷压缩
使用tar进行压缩tar -zcvf hello.tar.gz hello将hello压缩成hello.tar.gz,其中hello可以是个目录也可以是个文件。压缩后文件太大,对文件进行分割split -b 100M -d -a 1 hello.tar.gz hello.tar.gz.使用split命令对文件进行分割。其中:-b, --bytes=SIZE, 指定每个分割文...
2019-06-27 15:23:07 6415
原创 Superset的安装
Superset是Airbnb开源的BI数据分析与可视化平台,该工具主要特点是可自助分析、自定义仪表盘、分析结果可视化(导出)、用户/角色权限控制,还集成了一个SQL编辑器,可以进行SQL编辑查询等,原来是用于支持Druid的可视化分析,后面发展为支持很多种关系数据库及大数据计算框架,如:mysql, oracle, Postgres, Presto, sqlite, Redshift, Impa...
2019-06-24 10:40:29 188
原创 Flume自定义Sink
讲解一下如何自定义一个Flume的Sink,很简单,下面是一个自定义Sink,将数据写入到HDFS的Demo.package death.flume;import java.io.IOException;import java.net.URI;import java.text.SimpleDateFormat;import java.util.Date;import com.ali...
2019-06-21 14:09:43 2013
原创 MySQL数据导出导入
有时候,我们需要跨MySQL服务器复制表的数据,可以使用MySQL的select语句将文件导出成文本,然后再使用load语句导入到另一台MySQL服务器。这种复制数据的方式,简单高效。确认导出权限是否开启在进行数据导出之前,首先要确认导出权限是否开启,否则是禁止导出的。mysql> show variables like '%secure%';+-----------------...
2019-06-21 11:28:02 220
原创 Python3操作MySQL
Python操作MySQL有两个模块,PyMySQL和mysqldb,前者在Python3和Python2中都可以使用,而后者不支持Python3。这里简单介绍一下PyMySQL的用法。PyMySQL的安装PyMySQL的安装有两种方式,在Python3已经安装好的前提下,可以使用如下命令安装:pip3 install PyMySQL如果pip无法正确安装PyMySQL,可以通过下载...
2019-06-21 11:20:15 159
原创 Python3源码安装
准备环境必选yum install gccyum install cppyum install gcc-c++yum install ncursesyum install ncurses-develyum install gd-devel php-gdyum install zlib-develyum install openssl-devel可选yum install...
2019-06-21 10:33:24 179
原创 Hive分区表新增字段后插入数据显示为null
对Hive分区表进行新增字段后,会出现一个奇怪的情况,就是往 已经存在的 分区中装载数据后,某些字段的值显示为null,但实际情况是数据文件中对应的字段值其实是有值的。下面我们重现该问题:创建一个分区表往表中装载数据给表新增分区再往表中装载数据并查询数据装载成功后,通过查询可以看出,新创建的分区中数据显示正常,但是已经存在的time=20171010分区中新增数...
2019-06-18 15:17:18 3126
原创 Hive on Spark踩坑记
本文是我搭建Hive on Spark的一些经历,包括踩的各种坑,记录一下首先说一下本人为什么要搭建Hive on Spark呢?因为本人使用的是Hive 2.1.1,每次输入hive命令准备启动Hive客户端的时候,命令行都会输出这样的一段信息:信息中明确的说明了Hive on MapReduce在Hive 2中是过时的,并且在Hive未来的版本中可能是不可用的。推荐我们使用其他的执行引擎...
2019-06-18 15:01:46 1659
原创 搭建Spark on YARN报错
Hadoop 2.7.3Spark 2.1.1JDK 1.8报错17/05/27 17:14:00 ERROR YarnClientSchedulerBackend: Yarn application has already exited with state FAILED!17/05/27 17:14:00 ERROR TransportClient: Failed to send R...
2019-06-18 11:08:52 1210
原创 Maven手动添加jar包
首先我们要知道为什么要手动安装jar包,原因很简单,就是我们在编译自己编写的项目或者一些开源项目的源代码时,有可能报无法解析依赖关系,找不到jar包等错误:Failed to execute goal on project hive-exec:Could not resolve dependencies for project org.apache.hive:hive-exec:jar:2.3...
2019-06-18 11:06:02 4765
原创 Flume配置HDFS Sink
解析一下HDFS Sink的常规配置channeltype ###sink的类型,此处是hdfshdfs.path ###hdfs的路径,需要包含文件系统标识,比如:hdfs://namenode/flume/webdata/hdfs.filePrefix ###写入hdfs的文件名后缀,比如:.lzo .log等hdfs.rollIn...
2019-06-18 10:58:37 633
原创 Flink自定义Sink
Flink自定义Sink需要建议继承RichSinkFunction类,具体如下,在下列代码中详细介绍:/*** 继承RichSinkFunction<String>类,其中String为source端传到sink的数据类型,这个视Source端数据类型而定。*/public class CouponSink extends RichSinkFunction<String...
2019-06-18 10:53:21 8023 2
原创 Flink消费Kafka数据时指定offset的五种方式
下面是Flink读取Kafka数据的代码,其中就有五种读取offset的方式,并配置相应的介绍final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();env.enableCheckpointing(5000);env.setStreamTimeCharacteri...
2019-06-18 10:47:43 16534 2
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人