alluxio
KeepLearningBigData
Apache CarbonDarta PMC;
Apache Spark、Alluxio、KubeRay、SparkBWA等项目的contributor
展开
-
Spark生态之Alluxio学习10--集群问法全部启动问题解决
更多代码请见:https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习 版本:alluxio(tachyon) 0.7.1,spark-1.5.2,hadoop-2.6.01.解释1.1 问题描述之前博文没有解决的问题:http://blog.csdn.net/xubo245/article/details/51325834具体:hadoop原创 2016-11-06 20:52:28 · 1186 阅读 · 0 评论 -
Spark生态之Alluxio学习19--alluxio性能提升分析与实验1
更多代码请见:https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习 版本:alluxio-1.3.0(tachyon),spark-1.5.2,hadoop-2.6.00 以下分析是主要是基于spark-1.5.2和alluxio-1.3.0分析的,默认不支持数据本地化,所以会有跨节点传输1.解释1.1 分析alluxio会把数据缓存在w原创 2016-11-16 19:51:24 · 1264 阅读 · 0 评论 -
Spark生态之Alluxio学习20--疑问:为什么D7-D9到最后的count时间都是30s左右?
更多代码请见:https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习 版本:alluxio-1.3.0(tachyon),spark-1.5.2,hadoop-2.6.00 以下分析是主要是基于spark-1.5.2和alluxio-1.3.0分析的,默认不支持数据本地化,所以会有跨节点传输1.解释1.1 数据D7:2.01 GB D8:原创 2016-11-16 19:51:51 · 1565 阅读 · 0 评论 -
Spark生态之Alluxio学习21--疑问:为什么master看不到D9,而work节点有D9部分数据?
更多代码请见:https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习 版本:alluxio-1.3.0(tachyon),spark-1.5.2,hadoop-2.6.01.解释1.1 疑问为什么master看不到D9,而work节点有D9部分数据?master也显示内存不止D7,因为D7大概2G可以free掉D92.截图2.1 maste原创 2016-11-16 19:52:39 · 730 阅读 · 0 评论 -
Spark生态之Alluxio学习22--saveAsTextFile alluxio后count (有bug)
更多代码请见:https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习 版本:alluxio-1.3.0(tachyon),spark-1.5.2,hadoop-2.6.00 以下分析是主要是基于spark-1.5.2和alluxio-1.3.0分析的,默认不支持数据本地化,所以会有跨节点传输1.解释先加载到mem,然后count出现问题,D原创 2016-11-16 19:52:56 · 895 阅读 · 0 评论 -
Spark生态之Alluxio学习23--alluxio-0.7.1解决数据本地化的问题
更多代码请见:https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习 版本:alluxio-1.3.0(tachyon),spark-1.5.2,hadoop-2.6.01.解释spark-1.5.2和alluxio-1.3.0默认不支持数据本地化,所以会有跨节点传输2.解决办法:2.1 方法1使用alluxio-0.7.12.2 方法2设原创 2016-11-16 19:53:55 · 756 阅读 · 0 评论 -
Spark生态之Alluxio学习9---Auuxio(Tachyon)的优点
1.Spark的不同Job之间,两个不用的application需要从HDFS中加载两次同样的数据,而使用tachyon就不用了 当两个Spark作业需要共享数据时,必须通过写磁盘操作。比如:作业1要先把生成的数据写入HDFS,然后作业2再从HDFS把数据读出来。在此,磁盘的读写可能造成性能瓶颈。2. 由于Spark会利用自身的JVM对数据进行缓存,当Spa原创 2016-05-05 21:56:01 · 1145 阅读 · 0 评论 -
Spark生态之Alluxio学习2---Spark从tachyon中读取文件
1.启动spark-shell2.上传文件到tachyon:xubo@xubo:~/cloud/test/tachyon$ ../../tachyon-0.7.1/bin/tachyon tfs copyFromLocal 1.txt /Copied 1.txt to /xubo@xubo:~/cloud/test/tachyon$ ../../tachyon-0.7.1/原创 2016-05-04 22:46:00 · 1960 阅读 · 0 评论 -
Spark生态之Alluxio学习12--spark调用alluxio-1.3.0配置
更多代码请见:https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习 版本:alluxio(tachyon) 0.7.1,spark-1.5.2,hadoop-2.6.01.解释alluxio-0.7.1 启动的时候spark集群直接可以调用,但是alluxio-1.3.0需要自动配置2.代码:2.1 下载http://www.alluxi原创 2016-11-10 14:55:00 · 1018 阅读 · 0 评论 -
Spark生态之Alluxio学习11--alluxio-1.3.0集群配置
更多代码请见:https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习 版本:alluxio(tachyon) 0.7.1,spark-1.5.2,hadoop-2.6.0在spark上运行alluxio请参考下一个博客1.解释1.1 下载wget http://alluxio.org/downloads/files/1.3.0/alluxi原创 2016-11-10 14:54:03 · 1468 阅读 · 0 评论 -
Spark生态之Alluxio学习25--spark从HDFS和Alluxio读取时间比较
更多代码请见:https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习 版本:alluxio-1.3.0(tachyon),spark-1.5.2,hadoop-2.6.01.解释想要分析alluxio加速效果,发现alluxio会出现长尾效应,导致有些task特别耗时,相对于HDFS,并没有明显优势。2.代码:#~/cloud/allux原创 2016-12-15 18:42:05 · 935 阅读 · 3 评论 -
Spark生态之Alluxio学习18--alluxio work 3000出现问题
更多代码请见:https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习 版本:alluxio-1.3.0(tachyon),spark-1.5.2,hadoop-2.6.01.解释待解决1.1 问题访问http://mcnode6:30000/home时出现的Problem accessing /home. Reason: Server原创 2016-11-16 19:50:45 · 739 阅读 · 0 评论 -
Spark生态之Alluxio学习17--多次运行Space Usage增加
更多代码请见:https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习 版本:alluxio-1.3.0(tachyon),spark-1.5.2,hadoop-2.6.00 以下分析是主要是基于spark-1.5.2和alluxio-1.3.0分析的,默认不支持数据本地化,所以会有跨节点传输1.解释1.1 问题当将文件通过fs copyFr原创 2016-11-16 19:50:30 · 1142 阅读 · 0 评论 -
Spark生态之Alluxio学习16--将alluxio文件的block大小修改
更多代码请见:https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习 版本:alluxio-1.3.0(tachyon),spark-1.5.2,hadoop-2.6.01.alluxio-1.3.01.0 默认大小alluxio-1.3.0的block默认大小为512M,对于我每个节点只有10几个G的小内存来说,而且还需要进行spark运原创 2016-11-16 19:50:02 · 2118 阅读 · 0 评论 -
Spark生态之Alluxio学习8---集群版搭建问题之集群无法全部启动
六个worker只启动了3个:hadoop@Master:~/cloud/alluxio-0.7.1$ ./bin/tachyon formatConnecting to Mcnode1 as hadoop...Formatting Tachyon Worker @ Mcnode1Connection to mcnode1 closed.Connecting to Mcnode2 as原创 2016-05-05 20:01:22 · 2431 阅读 · 2 评论 -
Spark生态之Alluxio学习6---集群版搭建和运行(Tachyon)
更多代码请见:https://github.com/xubo245/SparkLearning环境:hadoop-2.6.0spark-1.5.2scala-1.71解释完成tachyon的集群配置与运行前提:安装好java、hdfs等2.下载https://github.com/Alluxio/alluxio/releases原创 2016-05-05 17:45:15 · 2021 阅读 · 0 评论 -
Spark生态之Alluxio学习1---单机版搭建和运行
环境ubuntu 14.04Spark-1.5.2Tachyon-0.7.11.由于最近用的Spark-1.5.2系统默认的tachyon为0.7.1,在Spark-core的pom.xml可以查看另外虽然现在Tachyon改名为Alluxio ,但是不影响这个版本的使用2.单机版搭建:下载地址:https://github.com/Alluxio/al原创 2016-05-04 22:32:16 · 2087 阅读 · 0 评论 -
Spark生态之Alluxio学习3---机器重启后数据存储位置的变化
1.重启后数据没有在内存里了,由于安装时用的是bin,而且设置的是local,及其重启后需要重启tachyon:xubo@xubo:~/cloud/tachyon-0.7.1/bin$ ./tachyon-start.sh localKilled 0 processes on xuboKilled 0 processes on xuboConnecting to localhost as原创 2016-05-05 14:07:01 · 1095 阅读 · 0 评论 -
Spark生态之Alluxio学习4---下载源码通过maven install安装失败记录
版本:v0.7.1.tar.gz记录xubo@xubo:~/cloud/tachyon-0.7.1$ mvn install[INFO] Scanning for projects...[INFO] ------------------------------------------------------------------------[INFO] Reactor Build原创 2016-05-05 14:48:38 · 5162 阅读 · 0 评论 -
Spark生态之Alluxio学习5--tachyon的几个问题(待解决)
1.tachyon是否会占用额外的空间?当tachyon将数据存储在内存中时,spark读取的时候是copy还是使用lineage?2.在运行spark的时候persist可以制定off-heap,而这种默认使用tachyon,这种模式与使用saveAsFile等指令存储到tachyon有什么区别?3.当tachyon内存存储到一定值时tachyon将文件存储到原创 2016-05-05 15:09:26 · 939 阅读 · 2 评论 -
Spark生态之Alluxio学习7--下载源码通过maven安装成功
更多代码请见:https://github.com/xubo245/SparkLearning1.环境hadoop 2.6.0spark 1.5.2java 1.72.下载:https://github.com/Alluxio/alluxio/archive/v0.7.1.tar.gz3.编译: mvn clean package -Djava.原创 2016-05-05 19:53:50 · 6271 阅读 · 0 评论 -
Spark生态之Alluxio学习13--Alluxio-1.3.0启动疑问
更多代码请见:https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习 版本:alluxio-1.3.0(tachyon),spark-1.5.2,hadoop-2.6.01.解释1.1 alluxio.env.sh 配置# The directory where a worker stores in-memory data. (Defaul原创 2016-11-16 19:48:34 · 925 阅读 · 0 评论 -
Spark生态之Alluxio学习14--alluxio内存文件加载方式和分布情况分析
更多代码请见:https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习 版本:alluxio-1.3.0(tachyon),spark-1.5.2,hadoop-2.6.0 alluxio-0.7.1 通过copyFromLocal指令上传文件,发现D1Line.fasta-D6Line.fasta都在一个节点,Mcnode1;原创 2016-11-16 19:49:14 · 5193 阅读 · 3 评论 -
Spark生态之Alluxio学习15--alluxio性能分析和加速方式
更多代码请见:https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习 版本:alluxio-1.3.0(tachyon),spark-1.5.2,hadoop-2.6.00 以下分析是主要是基于spark-1.5.2和alluxio-1.3.0分析的,默认不支持数据本地化,所以会有跨节点传输1.解释1.1 使用count进行简单数据分析co原创 2016-11-16 19:49:32 · 1184 阅读 · 0 评论 -
Spark生态之Alluxio学习24--分别读取HDFS和Alluxio的数据进行line count比较分析
更多代码请见:https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习 版本:alluxio-1.3.0(tachyon),spark-1.5.2,hadoop-2.6.01.解释测量alluxio和hdfs哪个速度快2.代码:2.1 hdfs for i in 1 2 3 4 5 6 7 8 9 10 11 12 13 14原创 2016-12-15 18:41:37 · 1165 阅读 · 0 评论