奋斗, 拼-CSDN博客

原创 Greenplum数据库优化实践：数据入库性能优化

调整greenplum并发数greenplum数据库的并发数，需要根据服务器硬件情况（如：cpu、内存等）进行调整，以使数据库性能达到最优。greenplum数据中涉及到并发数的参数，在postgresql.conf文件中，具体如下：参数1：max_connections - 最大连接数。变更的话，master和segment都要修改，且segment中该值需要是master的3-5...

2019-07-09 15:58:29 3724 1

原创 Akka Cluster 调优实践：数据入库吞吐量调优

1.测试调优环境windows 8, 8G 内存, 4核，500G磁盘笔记本电脑注：笔记本上还运行了大量其它软件。2.背景说明默认情况下：akka 集群数据入库（这里使用的是Greenplum集群），每分钟入库4000条左右（每秒入库不到70条）akka集群使用默认配置：默认情况下dispather 调度的线程池中只有12个线程（akka集群默认会根据当前机器情况启动相应的线程...

2019-07-04 15:55:26 1737

以 Yarn 模式部署 Flink 任务时，要求 Flink 是有 Hadoop 支持的版本， Hadoop环境需要保证版本在 2.2 以上，并且集群中安装有 HDFS 服务Flink提供了两种在yarn上运行的模式，分别为Session-Cluster和Per-Job-Cluster模式。1.Session-cluster模式该模式会先在yarn集群中启动一个Flink集群，然后再提交作业，相当于所有Flink应用共享一个集群。具体使用步骤如下：1）启动yarn-session./y

2020-07-16 17:01:23 650

原创查看CentOS版本信息

以下内容为查看CentOS版本信息和系统位数命令。一、查看CentOS版本信息 1、cat/etc/redhat-release 查看CentOS版本[root@host01 ~]$ cat /etc/redhat-releaseRed Hat Enterprise Linux Server release 7.4 (Maipo)[root@host01 ~]$ ...

2019-12-19 17:24:21 2164

原创 Spark Streaming-2.4.3整合Kafka-0.10

1.依赖准备添加spark-streaming整合kafka的依赖，将依赖添加到pom.xml中，如下：<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming-kafka-0-10_2.11</artifactId> &...

2019-11-15 16:14:21 1488

原创 Kylin Dashboard 功能开启

1.修改Kylin配置文件开启Dashboard功能修改kylin.properties，并添加如下内容：kylin.server.query-metrics2-enabled=true kylin.metrics.reporter-query-enabled=true kylin.metrics.reporter-job-enabled=true kylin.metrics.mo...

2019-10-24 09:37:39 595

原创 Greenplum Kafka 集成

本文主要介绍如何配置和使用Greenplum-Kafka集成1.介绍Greenplum-Kafka集成使用Greenplum Stream Server来提供从Apache Kafka到Greenplum数据库的高速并行数据加载入库。Greenplum-Kafka集成包括gpkafka工具，gpkafka工具是kafka的comsumer。gpkafka支持两个命令：gpkafka...

2019-09-23 16:52:51 2868 1

原创 Greenplum Stream Server(GPSS)介绍

1.GPSS简介 Greenplum Stream Server (GPSS)是一个ETL(提取、转换、加载)工具。GPSS服务器的一个实例从一个或多个客户机接收流数据，使用Greenplum数据库可读的外部表将数据转换并插入到目标Greenplum表中。数据源和数据格式是特定于客户机的。数据源和数据格式由客户端指定。 Greenplum Stream Serve...

2019-09-04 14:04:50 3395 1

原创 Spark源码编译

前言我这里是在windows环境下编译的，具体环境为：Windows 10、JDK8、Git-2.23.0-64-bit.exe windows版。若在linux环境下编译，过程一样，省略步骤2即可。1、官网下载源码http://spark.apache.org/downloads.html2、安装Git，并准备Git bash环境Git安装完成后，运行...

2019-08-28 15:12:07 445

原创 java中的位运算

Java中的位运算主要包括：^(亦或运算)、&（与运算）、|（或运算）、~（非运算）、<<(向左位移)、>>(向右位移)、>>>(无符号右移) 、<<<(无符号左移) 。详细介绍见下文。以下文章所有例子以7和8作为例子说明，7、8的二进制如下：7二进制为：000001118二进制位：000010001.^(亦或...

2019-08-26 14:18:49 763 3

原创 greenplum数据入库方式总结及性能对比

1.greenplum入库方式总结greenplum目前主要使用到的入库方式有如下4种：使用insert into方式入库使用gpss方式入库使用gpkafka方式入库使用gpcopy方式入库2.以上入库方式优缺点及性能对比详细优缺点及性能对比如下：入库方式优点缺点入库性能 ...

2019-08-22 18:14:31 6456 1

转载 quartz在job间隔期间内，保证上一个任务执行完后，再去调度下一个任务

Quartz定时任务默认都是并发执行的，不会等待上一次任务执行完毕，只要间隔时间到就会执行，这样往往会导致我们执行的数据不正确。如果定时任执行太长，会长时间占用资源，导致其它任务堵塞。解决办法：1.在Spring中这时需要设置concurrent的值为false, 禁止并发执行。<property name="concurrent" value="true" />...

2019-08-16 11:28:28 4675

原创 Greenplum高可用（副本）启用

1. 启用Primary Segment副本1.1添加的副本Mirror Segment与Primary Segment位于同一台主机创建用于存储mirror节点数据目录，注意目录不能和primary的数据目录相同；如：/data/primary用于存储primary数据，/data/mirror用于存储mirror数据。确保主机之间能够免密登录；使用gpaddmir...

2019-08-13 11:42:31 1926

原创 Greenplum Streaming Server(GPSS)自定义客户端开发

1. GPSS服务定义将以下内容复制到gpss.proto文件中，如下：syntax = "proto3";import "google/protobuf/empty.proto";import "google/protobuf/struct.proto";import "google/protobuf/timestamp.proto";package api;option...

2019-08-07 10:57:04 1851 2

原创 Greenplum Command Center监控安装

1.下载软件软件下载地址：https://network.pivotal.io/products/pivotal-gpdb/#/releases/422445/file_groups/1919这里下载greenplum-cc-web-4.7.0-LINUX-x86_64.zip·2.创建gpcc gpperfmon数据库2.1 切换到gpadmin用户# su - gpadm...

2019-07-30 17:57:44 1062

原创 greenplum集群安装（包含greenplum集群高可用配置）

写在前面：本集群安装包含master启用高可用、单机多segment、segment 备份节点（mirror）启用。Greenplum数据库版本，建议选择5.x，目前6.x版本未进入正式版本，暂不建议进入生产环境。目前已测试版本为greenplum-5.16。1. 软件下载greenplum官方下载地址：https://network.pivotal.io/products/pivotal...

2019-07-30 15:23:46 1902 1

原创 java.lang.NoClassDefFoundError类错误解决方法

在开发maven项目时，在完成代码编写后进行本地测试过程中经常会出现如下错误java.lang.NoClassDefFoundError: Could not initialize class xxx当看到java.lang.NoClassDefFoundError这类错误，原因主要有以下两种：项目中缺少需要的jar包初始化类所需要的jar包，在maven项目中pom.xml中...

2019-07-25 10:44:14 19687

原创 Greenplum Streaming Server(GPSS)安装配置

简介：Greenplum流服务器(GPSS)管理客户端(如：Greenplum- Kafka )和Greenplum数据库之间的通信和数据传输。在使用该服务将数据加载到Greenplum数据库之前，必须先配置并启动GPSS实例。1. 安装前准备条件Greenplum流服务器gpss和gpsscli命令行工具，在安装Greenplum数据库版本5.16及其以上版本时，已自动安装在其中，无需进...

2019-07-24 17:22:52 3983

原创 PL/pgSQL: 定义函数实现修改表

该函数实现根据传递给函数的列名和表名，向表中添加指定列。这里使用到了PL/pgSQL函数里的EXECUTE来生成动态命令。具体函数定义如下：CREATE OR REPLACE function addColums(colName text, colType text,tabName text) returns BOOLEAN as $BODY$declare res ...

2019-07-18 17:10:55 846

原创解决Greenplum数据库Master节点产生日志过多问题

1.原因分析greenplum集群master节点产生日志过大原因：greenplum数据库，由于所有的用户请求，都要经过master节点，并且默认情况下master节点会把CREATE，ALTER，DROP ，INSERT，UPDATE，DELETE，TRUNCATE和COPY FROM等操作详细日志信息记录在$MASTER_DATA_DIRECTORY/pg_log目录下，并且日志级别也较...

2019-07-10 10:44:15 2704

原创 mysql无侵入式数据采集之 binlog

针对MySQL的binlog的采集，笔者整理了如下解决方案。方案1：binlog + maxwell 方式采集步骤如下： 1、开启mysql的bin-log 开启方式，修改my.cnf(/etc/my.cnf) 添加如下内容： server-id=1 log-bin=master（这一步开启binlog） binlog_...

2018-08-01 15:46:41 1864

原创 1、进程、线程及多线程介绍

1. java多线程基本知识1.1. 进程介绍进程是系统进行资源分配和调度的基本单元。同一个进程可以包括多个线程，一个进程至少包括一个线程。进程在内存中有独立的空间，负责当前应用程序运行的所有细节。同一个进程可以包括多个线程，一个进程至少包括一个线程。1.2. 线程介绍线程是CPU调度的基本单元，它是位于进程中，负责当前进程中的某个独立任务的执行。1.3. 多线程介绍现在的...

2018-04-11 15:38:28 366

原创 Kylin 2.0安装

1. Kylin安装1.1. 安装前准备安装kylin前确保：hadoop、hbase、hive已经安装并启动。Hive需要启动metastore和hiveserver2。1.2. 下载kylin下载地址：这里下载的是：apache-kylin-2.0.0-bin-hbase1x.tar.gz1.3. 解压安装包tar –zxvf apache-kylin-2.0.0-bin-...

2018-03-20 16:59:48 708

原创 Hadoop3.0集群安装（包含HDFS HA配置）

hadoop3.0出来了，想尝试一下新版本的特性及mapreduce性能提升，以下以6台机器作为hadoop集群，机器主机名为：hadoop1、hadoop2、hadoop3、hadoop4、hadoop5、hadoop6，其中hadoop1-3作为namenode节点，hadoop4-6作为datanode节点。一、前提条件1、6台机器上都安装了jdk，并配置好了jdk环境变量（建...

2018-03-07 10:23:13 2849

转载 Java 网络IO编程总结（BIO、NIO、AIO均含完整实例代码）

本文会从传统的BIO到NIO再到AIO自浅至深介绍，并附上完整的代码讲解。下面代码中会使用这样一个例子：客户端发送一段算式的字符串到服务器，服务器计算后返回结果到客户端。代码的所有说明，都直接作为注释，嵌入到代码中，看代码时就能更容易理解，代码中会用到一个计算结果的工具类，见文章代码部分。相关的基础知识文章推荐： Linux 网络 I/O 模型简介（图文） ...

2018-02-26 13:53:31 291

原创 Spark2.2.1 on yarn 模式集群安装

假设集群有4台机器，主机名分别为：spark1、spark2、spark3、spark4。一、前提条件1、确保集群中已经安装好了hadoop-2.7hadoop集群安装参考：http://blog.csdn.net/u011563666/article/details/501704652、确保集群中每台机器上已经安装好了scala-2.11二、安装scala(若已经安装好了scala，请跳过该步骤...

2018-02-09 14:46:17 2014

原创 Hibench大数据基准测试使用教程

本文主要介绍：Hibench的使用以及Hibench测试相关配置一、安装Hibench1、下载Hibenchwget https://github.com/intel-hadoop/HiBench/archive/HiBench-7.0.zip2、编译所有模块（注意：编译前，确保系统中已经安装好了maven）命令：mvn -Dspark=2.1 -Dscala=2.11 clean package...

2018-02-08 09:54:09 5473

原创 CentOS7简单磁盘分区，格式化，分区开机自动挂载

1、磁盘分区如：对/dev/sda分区fdisk /dev/sda主要命令说明如下：m：查看帮助命令，可根据相应命令进行操作p：显示当前分区情况d：删除现有分区n：添加新分区w：写入磁盘并退出2、分区格式化mkfs -t xfs /dev/sda13、手动挂载将/dev/sda1分区挂载到/part1

2018-01-31 13:32:30 5154

原创 CentOS设置设备开机自动挂载

为了避免每次重启系统后都要手动mount，可以在/etc/fstab中加入一行挂载配置，即可开机自动挂载，该方法简单方便。使用root执行命令：vim /etc/fstab并在该文件中添加如下内容：/dev/cdrom /mnt/cdrom iso9660 defaults 0 0 说明：第一列：设备或磁盘分区第二列：挂载点第三列：设备

2018-01-29 10:09:02 10033

原创 Zookeeper集群自动启动停止脚本

前提条件：1、下面以主机hadoop1、hadoop2、hadoop3作为zookeeper集群。2、以上机器之间已经配置好了ssh免密码登录。startzk-all.sh 启动脚本内容如下：#!/bin/bashecho “Starting zk cluster ......”for i in {1..3}dossh

2018-01-19 16:58:49 2337

转载 hiveserver2服务异常停止，报错：java.lang.OutOfMemoryError: Java heap space

错误详情如下：Exception in thread "HiveServer2-Handler-Pool: Thread-956" Exception in thread "HiveServer2-Handler-Pool: Thread-953" java.lang.OutOfMemoryError: Java heap space at java.util.HashMap.newNo

2018-01-11 13:49:07 6357

原创 Hadoop集群从节点出现错误： Retrying connect to server: 0.0.0.0/0.0.0.0:8031. Already tried 0 time(s);

错误详情如下：2018-01-09 17:47:22,892 INFO org.apache.hadoop.ipc.Client: Retrying connect to server: 0.0.0.0/0.0.0.0:8031. Already tried 0 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(m...

2018-01-10 18:01:20 13770 3

转载 Hadoop各个服务端口列表

端口Hadoop集群的各部分一般都会使用到多个端口，有些是daemon之间进行交互之用，有些是用于RPC访问以及HTTP访问。而随着Hadoop周边组件的增多，完全记不住哪个端口对应哪个应用，特收集记录如此，以便查询。这里包含我们使用到的组件：HDFS, YARN, HBase, Hive, ZooKeeper:组件节点默认端口配置用途说明

2018-01-10 17:12:36 24010

原创 CentOS7安装Hive2.3.2

一、前提条件准备1、系统中已经安装好了Hadoop-2.x集群环境(伪分布式也可以)，我这里安装的是hadoop-2.7.3hadoop安装参考：http://blog.csdn.net/u011563666/article/details/501704652、确保系统一种已经安装好了MySQL mysql用于存储hive元数据信息，目前hive支持的元数据库有der

2018-01-02 16:19:06 2274

原创 HAWQ安装PXF插件

HAWQ安装PXF插件1、下载git clone https://git-wip-us.apache.org/repos/asf/incubator-hawq.git2、编译pxfcd incubator-hawq/pxfmake3、安装PXF创建pxf安装目录：mkdir -p /opt/pxfcd incubator-hawq/pxfexport PXF_HOME=/opt/pxfm

2017-12-22 17:18:01 1871 3

原创 HAWQ安装方式之RPM包安装

HAWQ是一个Hadoop原生大规模并行SQL分析引擎，针对的是分析性应用。和其他关系型数据库类似，接受SQL，返回结果集。但它具有大规模并行处理很多传统数据库以及其他数据库没有的特性及功能。HAWQ为PB级SQL on Hadoop操作专门设计。数据直接存储在HDFS上，并且SQL查询优化器中已经为基于HDFS的文件系统性能特征进行过细致的优化。HAWQ丰富且完全兼容的SQL标准。本篇文章主要讲解HAWQ的安装过程。

2017-12-15 16:45:26 2358

原创 TPC-DS性能测试及使用方法

一、安装TPC-DS工具1、下载工具下载地址：http://www.tpc.org/tpc_documents_current_versions/download_programs/tools-download-request.asp?bm_type=TPC-DS&bm_vers=2.6.0&mode=CURRENT-ONLY 注意：必须输入邮箱，他会发下载地址到邮箱中，点击

2017-12-08 14:50:00 18766 7

原创 Linux配置SSH免密码登录

CentOS配置SSH免密码登录为例说明：SSH远程登录的安全外壳协议有两种身份认证机制： - 用户名+密码 -密钥登录环境准备host1：192.168.0.10host2：192.168.0.11下面以host1 ssh免密码登录到host2为例，进行说明1、在host1主机下生成私钥/公钥对执行如下命令一直回车即可。 [u

2017-10-11 10:27:49 6079 1

原创 centOS7设置用户自定义服务开机自启动

以下以redis服务开机自启动为例1、编写服务启动脚本 redis.sh vim redis.sh在其中添加如下内容 #！bin/bash /***/bin/redis-server /***/redis.conf2、到/lib/systemd/system目录下

2017-10-10 18:08:40 3363

原创 hive与hbase的整合时错误

当利用hive来管理hbase时，出现如下错误：java.io.IOException: org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.IllegalArgumentException: Must specify table name at org.apache.hadoop.hive.ql.exec.F

2016-06-06 22:50:44 2484

空空如也

Titan1.0.0图数据库如何批量加载大规模数据，后端存储是Hbase？