- 博客(7)
- 收藏
- 关注
原创 使用spark读写ftp遇到的问题
LINUX安装1.环境准备1.1 安装 VSFTPD使用 yum 安装 vsftpdyum -y install vsftpd1.2 启动 vsftpd安装完成后,启动 FTP 服务(关闭防火墙或者配置运行通过防火墙):service vsftpd restart启动后,可以看到系统已经监听了 21 端口:netstat -nltp | grep 21此时,访问 ftp:...
2019-12-12 17:24:04 1354
原创 基于Java代码自动提交Spark任务
1.基于Java代码自动提交Spark任务SparkLauncher支持两种模式:(1).new SparkLauncher().launch(),直接启动一个Process,效果跟Spark submit提交一样(2).new SparkLauncher().startApplicaiton(监听器) 返回一个SparkAppHandler,并(可选)传入一个监听器优点:自带输出重定向...
2019-12-30 16:37:06 761
原创 linux安装greenplum数据库记录
1.下载安装包在官网上下载需要的版本,注意在官网注册时要用正规的邮箱和注册名,不然会被pvital公司划分为无效账户,此时就没有权限下载所以产品了下载网址:https://network.pivotal.io/products/pivotal-gpdb/2.将安装包传到linux上,按照该博客:https://blog.csdn.net/weberhuangxingbo/article/de...
2019-12-20 11:55:00 472 1
原创 时序数据库influxDB基本用法
一:准备环境下载:wget https://dl.influxdata.com/influxdb/releases/influxdb-1.7.9_linux_amd64.tar.gz解压:tar xvfz influxdb-1.7.9_linux_amd64.tar.gzmv influxdb-1.7.9-1/ influxdb二:启动服务端操作步骤:1、进入安装目录/inf...
2019-12-12 16:49:10 1265 2
转载 spark概念解释
梳理一下Spark中关于并发度涉及的几个概念File,Block,Split,Task,Partition,RDD以及节点数、Executor数、core数目的关系。输入可能以多个文件的形式存储在HDFS上,每个File都包含了很多块,称为Block。当Spark读取这些文件作为输入时,会根据具体数据格式对应的InputFormat进行解析,一般是将若干个Block合并成一个输入分片,称为In...
2019-06-26 15:39:03 210
原创 MPP数据库分区表详解
本文介绍的MPP数据库是greenplum database,根据gp官网介绍gp支持大表分区。参考文献:gp官网一、分区的目的:提高查询效率把大数据切片,便于查询;便于数据库维护;二、 分区类型范围分区 range partition列表分区 list partition组合分区三、 分区策略表是否足够大?大事实表可以选择分区。如果一个表有几百万或10亿数据量,你...
2019-06-26 15:21:08 4830
原创 Yarn三种调度器
一、Scheduler的简介 理想情况下,我们应用对Yarn资源的请求应该立刻得到满足,但现实情况资源往往是有限的,特别是在一个很繁忙的集群,一个应用资源的请求经常需要等待一段时间才能的到相应的资源。在Yarn中,负责给应用分配资源的就是Scheduler。其实调度本身就是一个难题,很难找到一个完美的策略可以解决所有的应用场景。为此,Yarn提供了多种调度器和可配置的策略供我们选择。...
2019-01-03 21:56:24 289
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人