- 博客(9)
- 收藏
- 关注
原创 Spark(Accumulator)陷阱及解决办法
Accumulator简介Accumulator是spark提供的累加器,顾名思义,该变量只能够增加。 只有driver能获取到Accumulator的值(使用value方法),Task只能对其做增加操作(使用 +=)。你也可以在为Accumulator命名(不支持Python),这样就会在spark web ui中显示,可以帮助你了解程序运行的情况。Accumulator使用
2017-11-24 08:43:50 246
原创 Centos6.5(64位) 搭建FTP服务器
1. 在root权限下,通过如下命令安装Vsftp。# yum install vsftpd2. 在启动vsftpd服务之前,需要登录云服务器修改配置文件,将匿名登录禁用掉。打开配置文件,命令如下:# vim /etc/vsftpd/vsftpd.conf在配置文件中第11行的“anonymous_enable=YES”改为“anonymous_enable=NO”,即将匿名登
2017-11-22 20:31:47 263
原创 Spark On YARN内存分配
说明按照Spark应用程序中的driver分布方式不同,Spark on YARN有两种模式: yarn-client模式、yarn-cluster模式。当在YARN上运行Spark作业,每个Spark executor作为一个YARN容器运行。Spark可以使得多个Tasks在同一个容器里面运行。下图是yarn-cluster模式的作业执行图,图片来源于网络:
2017-11-14 14:32:14 314
原创 Spark参数配置
下面是整理的Spark中的一些配置参数,官方文档请参考Spark Configuration。Spark提供三个位置用来配置系统:Spark属性:控制大部分的应用程序参数,可以用SparkConf对象或者Java系统属性设置环境变量:可以通过每个节点的 conf/spark-env.sh脚本设置。例如IP地址、端口等信息日志配置:可以通过log4j.properties配置
2017-11-14 14:05:22 523
原创 记录一次phoenix启动报错
安装Phoenix时./sqlline.py执行报错File "./sqlline.py", line 27, in import argparse ImportError: No module named argparse解决办法解决办法:# yum install python-argparse然后,再重启HBase集群。bin/sql
2017-11-10 08:33:00 2448
原创 zookeeper单机模式的安装
1.下载wget http://archive.cloudera.com/cdh5/cdh/5/zookeeper-3.4.5-cdh5.7.0.tar.gz2.解压tar -zxf zookeeper-3.4.5-cdh5.7.0.tar.gz3.进入zookeeper目录下的conf子目录, 创建zoo.cfgtickTime=2000 dataDir=/op
2017-11-07 09:08:30 254
原创 pip安装使用详解
pip类似RedHat里面的yum,安装Python包非常方便。本节详细介绍pip的安装、以及使用方法。1、pip下载安装1.1 pip下载1# wget "https://pypi.python.org/packages/source/p/pip/pip-1.5.4.tar.gz#md5=834b2904f92d46aaa333267fb1c922bb" --no-c
2017-11-07 08:58:21 184
转载 从mysql层面删除hive元数据
由于之前配置了hive,hdfs 被格式化了,导致现在hive上原来的元数据没有清理掉。 由于hive 上所有元数据均保存在mysql中,所以,可以从mysql上删除表相关信息即可删除hive表,而且不会影响hdfs上数据。 分析: hive在mysql上的相关元数据表关系图:解决方法: 1、先在 mysql 中建存储过程 说明: 建的存储过程名字为t1,输入为
2017-11-06 15:29:15 2681
转载 spark-alluxio生产环境的应用与实践
一、Alluxio由来起因 Alluxio(之前名为Tachyon)是世界上第一个以内存为中心的虚拟的分布式存储系统。它统一了数据访问的方式,为上层计算框架和底层存储系统构建了桥梁。 应用只需要连接Alluxio即可访问存储在底层任意存储系统中的数据。此外,Alluxio的以内存为中心的架构使得数据的访问速度能比现有常规方案快几个数量级。 在大数据生态系统中,Allux
2017-11-03 12:40:42 1119
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人