spark
大数据技术进阶
这个作者很懒,什么都没留下…
展开
-
spark mllib k-means算法实现
package iie.udps.example.spark.mllib;import java.util.regex.Pattern;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkContext;原创 2015-02-09 11:39:19 · 1272 阅读 · 0 评论 -
spark streaming 实现接收网络传输数据进行WordCount功能
package iie.udps.example.operator.spark;import scala.Tuple2;import org.apache.spark.SparkConf;import org.apache.spark.api.java.function.FlatMapFunction;import org.apache.spark.api.java.function.原创 2015-02-09 11:42:37 · 2299 阅读 · 0 评论 -
Spark Streaming性能调优详解
Spark Streaming提供了高效便捷的流式处理模式,但是在有些场景下,使用默认的配置达不到最优,甚至无法实时处理来自外部的数据,这时候我们就需要对默认的配置进行相关的修改。由于现实中场景和数据量不一样,所以我们无法设置一些通用的配置(要不然Spark Streaming开发者就不会弄那么多参数,直接写死不得了),我们需要根据数据量,场景的不同设置不一样的配置,这里只是给出建议,这些调优不一转载 2016-01-28 14:16:38 · 2468 阅读 · 0 评论 -
spark+hcatalog操作hive表及其数据
package iie.hadoop.hcatalog.spark;import iie.udps.common.hcatalog.SerHCatInputFormat;import iie.udps.common.hcatalog.SerHCatOutputFormat;import java.io.BufferedReader;import java.io.IOException;原创 2014-12-24 11:21:18 · 4369 阅读 · 0 评论 -
Spark Sql性能测试及调优
1 问题描述内存不足时group by操作失败。正常应该速度变慢,而不是失败,因为还有磁盘可用 错误日志:Task:java.io.IOException: Filesystem closed atorg.apache.hadoop.hdfs.DFSClient.checkOpen(DFSClient.java:765) atorg原创 2016-01-28 14:30:25 · 9561 阅读 · 0 评论 -
spark读hdfs文件实现wordcount并将结果存回hdfs
package iie.udps.example.operator.spark;import scala.Tuple2;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import org.ap原创 2015-02-09 11:45:52 · 4291 阅读 · 1 评论 -
延长SparkContext初始化时间
有些应用中可能希望现在driver上运行一段java单机程序,然后再初始化SparkContext用集群模式操作java程序返回值。从而避免过早建立SparkContext对象分配集群资源,使资源长时间空闲。这里涉及到两个yarn参数: yarn.am.liveness-monitor.expiry-interval-ms 6000000原创 2015-06-10 10:52:27 · 2246 阅读 · 0 评论 -
Spark读取HDFS文件,文件格式为GB2312,实现WordCount示例
import scala.Tuple2;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.lib.input.TextInputFor原创 2015-02-09 11:52:34 · 2575 阅读 · 0 评论