- 博客(8)
- 资源 (3)
- 收藏
- 关注
转载 spark内存管理模块
Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳理出 Spark 内存管理的脉络,抛砖引玉,引出读者对这个话题的深入探讨。本文中阐述的原理基于 Spark 2.1 版本,阅读本文需要读者有一定的 Spark 和 Java 基础,了解 RDD、Shuffl
2017-05-05 13:05:38 710
原创 spark on yarn
1、spark-default export SPARK_LOCAL_DIRS=/home/hadoop/spark/tmp export SPARK_HOME=/usr/install/spark2、spark-env//This requires spark.shuffle.service.enabled to be set. The following //configurations a
2017-05-04 08:13:57 429
原创 hadoop安装配置
这个是很早之前写的一个配置文档了,最近总有人管我要,现在发出来,有些地方可能需要修改。仅供参考。 1.配置Hadoop环境变量 1.1展开hadoop安装包 在master解压主目录中的hadoop压缩包 sudo tar -zxf hadoop-2.6.5.tar.gz sudo mv hadoop-2.6.5 hadoop sudo chmod -R +x ~/hadoop 2.
2017-05-04 08:11:39 285
原创 alluxio安装配置
安装与配置 sudo tar -zxf alluxio-1.3.0-bin.tar.gz -C ~/ sudo mv alluxio-1.3.0 alluxio cd alluxio/conf sudo cp alluxio-env.sh.template alluxio-env.sh sudo nano alluxio-env.sh 在文件尾部加上:export ALLUXIO_HOME
2017-05-04 08:05:11 1074
原创 spark-sql读取hive挂载alluxio
Alluxio是一个基于内存的分布式文件系统,它是架构在底层分布式文件系统和上层分布式计算框架之间的一个中间件,主要职责是以文件形式在内存或其它存储设施中提供数据的存取服务。Alluxio的前身为Tachyon 在大数据领域,最底层的是分布式文件系统,如Amazon S3、Apache HDFS等,而较高层的应用则是一些分布式计算框架,如Spark、MapReduce、Flink等,这些分布式框架
2017-05-04 07:59:07 1644
原创 sqoop常用指令
import ##表示导入 –connect jdbc:mysql://ip:3306/sqoop ##告诉jdbc,连接mysql的url –username root ##连接mysql的用户名 –password admin ##连接mysql的密码 –table aa ##从mysql导出的表名称 –query “select * from table”##表示需要查询的语句 –
2017-05-03 11:42:07 707
原创 Elasticsearch 配置详解
Cluster 集群名称,默认为elasticsearch: cluster.name: elasticsearch 设置一个节点的并发数量,有两种情况,一种是在初始复苏过程中: cluster.routing.allocation.node_initial_primaries_recoveries: 4 另一种是在添加、删除节点及调整时: cluster.routing.all
2017-05-03 11:36:35 837
原创 spark/hadoop/hive/alluxio/sqoop/zookeeper 安装文档
一、关闭防火墙 临时关闭: sudo service iptables stop 永久关闭: sudo chkconfig iptables off 查看运行状态 sudo service iptables status 二、添加用户 useradd hadoop passwd hadoop 然后输入需要配置的密码 为新创建的用户添加root权限 在root用户下面,(su
2017-05-03 11:34:28 907
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人