！WAIVE-CSDN博客

原创使用spark读写ftp遇到的问题

LINUX安装1.环境准备1.1 安装 VSFTPD使用 yum 安装 vsftpdyum -y install vsftpd1.2 启动 vsftpd安装完成后，启动 FTP 服务(关闭防火墙或者配置运行通过防火墙)：service vsftpd restart启动后，可以看到系统已经监听了 21 端口：netstat -nltp | grep 21此时，访问 ftp:...

2019-12-12 17:24:04 1436

原创基于Java代码自动提交Spark任务

1.基于Java代码自动提交Spark任务SparkLauncher支持两种模式:(1).new SparkLauncher().launch(),直接启动一个Process,效果跟Spark submit提交一样(2).new SparkLauncher().startApplicaiton(监听器) 返回一个SparkAppHandler，并（可选）传入一个监听器优点：自带输出重定向...

2019-12-30 16:37:06 825

1.下载安装包在官网上下载需要的版本,注意在官网注册时要用正规的邮箱和注册名,不然会被pvital公司划分为无效账户,此时就没有权限下载所以产品了下载网址:https://network.pivotal.io/products/pivotal-gpdb/2.将安装包传到linux上,按照该博客:https://blog.csdn.net/weberhuangxingbo/article/de...

2019-12-20 11:55:00 515 1

原创时序数据库influxDB基本用法

一：准备环境下载：wget https://dl.influxdata.com/influxdb/releases/influxdb-1.7.9_linux_amd64.tar.gz解压：tar xvfz influxdb-1.7.9_linux_amd64.tar.gzmv influxdb-1.7.9-1/ influxdb二：启动服务端操作步骤：1、进入安装目录/inf...

2019-12-12 16:49:10 1332 2

转载 spark概念解释

梳理一下Spark中关于并发度涉及的几个概念File，Block，Split，Task，Partition，RDD以及节点数、Executor数、core数目的关系。输入可能以多个文件的形式存储在HDFS上，每个File都包含了很多块，称为Block。当Spark读取这些文件作为输入时，会根据具体数据格式对应的InputFormat进行解析，一般是将若干个Block合并成一个输入分片，称为In...

2019-06-26 15:39:03 237

原创 MPP数据库分区表详解

本文介绍的MPP数据库是greenplum database，根据gp官网介绍gp支持大表分区。参考文献：gp官网一、分区的目的：提高查询效率把大数据切片,便于查询；便于数据库维护；二、分区类型范围分区 range partition列表分区 list partition组合分区三、分区策略表是否足够大？大事实表可以选择分区。如果一个表有几百万或10亿数据量，你...

2019-06-26 15:21:08 5044

原创 Yarn三种调度器

一、Scheduler的简介理想情况下，我们应用对Yarn资源的请求应该立刻得到满足，但现实情况资源往往是有限的，特别是在一个很繁忙的集群，一个应用资源的请求经常需要等待一段时间才能的到相应的资源。在Yarn中，负责给应用分配资源的就是Scheduler。其实调度本身就是一个难题，很难找到一个完美的策略可以解决所有的应用场景。为此，Yarn提供了多种调度器和可配置的策略供我们选择。...

2019-01-03 21:56:24 325

！WAIVE的博客