spark
ProductBug
这个作者很懒,什么都没留下…
展开
-
spark中算子详解:aggregateByKey
通过scala集合以并行化方式创建一个RDDscala> val pairRdd = sc.parallelize(List(("cat",2),("cat",5),("mouse",4),("cat",12),("dog",12),("mouse",2)),2)pairRdd 这个RDD有两个区,一个区中存放的是:("cat",2),("cat",5),("mouse",4)另一个分区中存放的是:原创 2017-11-06 15:14:56 · 5458 阅读 · 4 评论 -
Spark模拟实现某网站用户浏览次数最多的url统计
现在假设有一个IT教育网站,有Java,PHP,net等多个栏目,下面是模拟实现的网站日志第一个字段是访问日期,第二个字段是访问的URL,其中每个栏目有一个独立域名,如下:java.aaaaaaa.cnnet.aaaaaaa.cnphp.aaaaaaa.cn20160321101954 http://java.aaaaaaa.cn/java/course/javaeeadvanced.shtml原创 2017-11-06 21:29:35 · 2284 阅读 · 0 评论 -
yarn-client、yarn-cluster 的区别
Spark on yarn有分为两种模式yarn-cluster和yarn-client Spark支持可插拔的集群管理模式(Standalone、Mesos以及YARN ),集群管理负责启动executor进程,编写Spark application 的人根本不需要知道Spark用的是什么集群管理。Spark支持的三种集群模式,这三种集群模式都由两个组件组成:master和slave。Mast转载 2017-11-08 18:28:15 · 1406 阅读 · 0 评论 -
在idea上用SparkStreaming实现从远程socket读取数据并完成Wordcount
首先,准备环境 在本机(win7)上安装好idea(自行解决) 我的远端就是一台Centos版本的Linux,主机名叫master。 在这个远端上装好 nc(“脑残”)[root@Master ~]# nc -lk 8888bash: nc: command not found出现这个说明我的nc并没有安装,那么我装一下(首先得配好网络yum源,),执行下面的命令[root@Master ~原创 2017-11-09 00:09:26 · 1073 阅读 · 0 评论 -
spark中算子详解:combineByKey
combineByKey是spark中更加底层,更加难理解,但却更灵活的一个算子这个算子需要传入三个函数第一个函数,是对每个分区的第一个值进行操作(这是本篇文章最重要的点) 第二个函数,是对每个分区进行操作 第三个函数,在第二个函数对每个分区操作产生结果后,对所有分区的结果进行聚合下面是具体的例子通过scala集合产生一个rddscala > val rdd1 = sc.parallelize(原创 2017-11-06 15:56:36 · 527 阅读 · 0 评论