spark java教程_学习随笔--Spark java开发入门

最新推荐文章于 2024-04-08 22:48:31 发布

weixin_39728909

最新推荐文章于 2024-04-08 22:48:31 发布

阅读量268

点赞数

文章标签： spark java教程

本文链接：https://blog.csdn.net/weixin_39728909/article/details/114469982

版权

1 packagestuSpark.com;2

3 importscala.Tuple2;4

5 importorg.apache.spark.SparkConf;6 importorg.apache.spark.api.java.JavaPairRDD;7 importorg.apache.spark.api.java.JavaRDD;8 importorg.apache.spark.api.java.JavaSparkContext;9 importorg.apache.spark.api.java.function.FlatMapFunction;10 importorg.apache.spark.api.java.function.Function;11 importorg.apache.spark.api.java.function.Function2;12 importorg.apache.spark.api.java.function.PairFunction;13 importorg.apache.spark.storage.StorageLevel;14

15 importjava.util.Arrays;16 importjava.util.Iterator;17 importjava.util.List;18 importjava.util.regex.Pattern;19

20 public final classJavaWordCount {21 private static final Pattern SPACE = Pattern.compile(" ");22 //pattern 对象是一个正则表达式的编译表示23 //compile()方法表示编译此正则表达式regExp，返回regExp被编译后的pattern

25 public static void main(String[] args) throwsException {26

27 //file 代表本地路径，反之代表hdfs路径

28 String filePath = "file:\\E:\\test.txt";29

30 SparkConf sparkConf = new SparkConf().setAppName("JavaWordCount")31 .setMaster("local[2]");32 //设置该程序名称设置本地模式

33 JavaSparkContext ctx = newJavaSparkContext(sparkConf);34 //创建JavaSparkContext对象实例sc

36 JavaRDD lines = ctx.textFile(filePath, 1);37 //直接从集合转化 sc.parallelize(List(1,2,3,4,5,6,7,8,9,10))38 //从HDFS文件转化 sc.textFile("hdfs://")39 //从本地文件转化 sc.textFile("file:/")

41 lines.cache();42 lines.persist(StorageLevel.MEMORY_ONLY());43 //持久化RDD

44 /*

45 * cache()方法表示：使用非序列化的方式将RDD的数据全部尝试持久化到内存中，46 * cache是一个transformtion，是lazy的，必须通过一个action触发，47 * 才能真正的将该RDD cache到内存中。48 *49 * persist()方法表示：手动选择持久化级别，并使用指定的方式进行持久化50 * DISK_ONLY：磁盘51 DISK_ONLY_2：磁盘；双副本52 MEMORY_ONLY：内存；反序列化；把RDD作为反序列化的方式存储，假如RDD的内容存不下，剩余的分区在以后需要时会重新计算，不会刷到磁盘上。53 MEMORY_ONLY_2：内存；反序列化；双副本54 MEMORY_ONLY_SER：内存；序列化；这种序列化方式，每一个partition以字节数据存储，好处是能带来更好的空间存储，但CPU耗费高55 MEMORY_ONLY_SER_2 : 内存；序列化；双副本56 MEMORY_AND_DISK：内存 + 磁盘；反序列化；双副本；RDD以反序列化的方式存内存，假如RDD的内容存不下，剩余的会存到磁盘57 MEMORY_AND_DISK_2 : 内存 + 磁盘；反序列化；双副本58 MEMORY_AND_DISK_SER：内存 + 磁盘；序列化59 MEMORY_AND_DISK_SER_2：内存 + 磁盘；序列化；双副本60 **/

63 //并行化集合64 //并行数组中一个很重要的参数是partitions，它来描述数组被切割的数据集数量。Spark会在每一个partitions上运行任务

65 List data = Arrays.asList(1, 2, 3, 4, 5);66 //数组连接list，当更新其中之一时，另一个自动更新

67 JavaRDD distData =ctx.parallelize(data);68 //分发本地Scala集合以形成RDD69 //初始化一个已经存在的集合70

71 //filter()参数是函数，函数会过滤掉不符合条件的元素，返回值是新的RDD

72 lines.filter(new Function(){73

74 public Boolean call(String arg0) throwsException {75 //TODO Auto-generated method stub

76 return null;77 }78

79 });80 //map参数是函数，函数应用于RDD每一个元素，返回值是新的RDD

81 JavaRDD lineLengths =lines82 .map(new Function() {83 publicInteger call(String s) {84 returns.length();85 }86 });87 //reduce聚集，但是传入的函数是两个参数输入返回一个值，这个函数必须是满足交换律和结合律

88 int totalLength =lineLengths89 .reduce(new Function2() {90 publicInteger call(Integer a, Integer b) {91 return a +b;92 }93 });94 //flatMap和map差不多，但是flatMap生成的是多个结果

95 JavaRDD words =lines96 .flatMap(new FlatMapFunction() {97 //Iterable迭代的

98 public Iterablecall(String s) {99 returnArrays.asList(SPACE.split(s));100 }101 });102 //maptopair 将集合数据存为key value

103 JavaPairRDD ones =words104 .mapToPair(new PairFunction() {105 public Tuple2call(String s) {106 return new Tuple2(s, 1);107 }108 });109 //reduceBykey 根据key聚集，对value进行操作

110 JavaPairRDD counts =ones111 .reduceByKey(new Function2() {112 publicInteger call(Integer i1, Integer i2) {113 return i1 +i2;114 }115 });116 //collect封装返回一个数组

117 List> output =counts.collect();118 for (Tuple2, ?>tuple : output) {119 System.out.println(tuple._1() + ": " +tuple._2());120 }121 ctx.stop();122 }123 }

weixin_39728909

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark java教程_学习随笔--Spark java开发入门

1 packagestuSpark.com;23 importscala.Tuple2;45 importorg.apache.spark.SparkConf;6 importorg.apache.spark.api.java.JavaPairRDD;7 importorg.apache.spark.api.java.JavaRDD;8 importorg.apache.spark.api.jav...
复制链接

扫一扫