spark
文章平均质量分 80
smallboy2011
这个作者很懒,什么都没留下…
展开
-
spark中读取hdfs中文件出错
scala> val rdd1 = sc.textFile("hdfs://master:9001/spark/spark02/directory/")14/07/19 17:09:36 INFO MemoryStore: ensureFreeSpace(138763) called with curMem=0, maxMem=30922506214/07/19 17:09:36 INFO原创 2014-07-19 17:28:55 · 3589 阅读 · 0 评论 -
spark结合Hadoop2.2.0 HA使用中遇到的问题
scala> rdd1.toDebugString14/07/20 09:42:05 INFO Client: Retrying connect to server: mycluster/202.106.199.34:8020. Already tried 0 time(s); maxRetries=4514/07/20 09:42:25 WARN Client: Address chan原创 2014-07-20 09:42:56 · 5024 阅读 · 0 评论 -
spark集群其中一个节点没有启动成功
Spark Command: /usr/java/jdk1.7/bin/java -cp ::/home/hadoop2/spark/spark-1.0.0/conf:/home/hadoop2/spark/spark-1.0.0/assembly/target/scala-2.10/spark-assembly-1.0.0-hadoop2.2.0.jar -XX:MaxPermSize=128m原创 2014-07-19 17:23:51 · 3582 阅读 · 0 评论 -
spark在hadoop2.2.0 HA配置下的问题
scala> val rdd1 = sc.textFile("hdfs://mycluster/spark/spark02/week2/directory/")14/07/19 21:15:23 INFO MemoryStore: ensureFreeSpace(138763) called with curMem=0, maxMem=30922506214/07/19 21:15:23原创 2014-07-19 21:33:56 · 5395 阅读 · 0 评论 -
spark和hadoop的比较
Spark与Hadoop的对比Spark的中间数据放到内存中,对于迭代运算效率更高。Spark更适合于迭代运算比较多的ML和DM运算。因为在Spark里面,有RDD的抽象概念。Spark比Hadoop更通用。Spark提供的数据集操作类型有很多种,不像Hadoop只提供了Map和Reduce两种操作。比如map, filter, flatMap, sample, g转载 2014-07-23 10:11:55 · 1039 阅读 · 0 评论 -
Spark:sortBy和sortByKey的函数详解
在很多应用场景都需要对结果数据进行排序,Spark中有时也不例外。在Spark中存在两种对RDD进行排序的函数,分别是 sortBy和sortByKey函数。sortBy是对标准的RDD进行排序,它是从Spark 0.9.0之后才引入的(可以参见SPARK-1063)。而sortByKey函数是对PairRDD进行排序,也就是有Key和Value的RDD。下面将分别对这两个函数的实现以及使用进转载 2017-01-19 13:45:09 · 4052 阅读 · 0 评论