spark
_delin
这个作者很懒,什么都没留下…
展开
-
java8实现spark wordcount并且按照value排序输出
最近在学习spark,本来应该是使用scala编程,但是无奈scala没接触过,还得学,就先使用java的spark api练练手,其实发现java8的函数式编程跟scala很多地方异曲同工啊,搞定spark的java api后面学scala应该事半功倍! 最开始当然是万年不变的wordcount,加了个排序输出,具体看注释.原创 2016-12-14 15:26:59 · 4274 阅读 · 0 评论 -
Spark集群硬件挑选
Spark 开发者都会反应一个常见问题,如何为 Spark 配置硬件。然而正确的硬件配置取决于使用的场景,我们提出以下建议。 存储系统 因为大多数 Spark 作业都很可能必须从外部存储系统(例如 Hadoop 文件系统或者 HBase )读取输入的数据,所以部署 Spark 时尽可能靠近这些系统是很重要的。我们建议如下: 如果可以,在 HDFS 相同的节转载 2016-12-19 16:25:16 · 1571 阅读 · 0 评论 -
java8下spark-streaming结合kafka编程(spark 2.0 & kafka 0.10)
前面有说道spark-streaming的简单demo,也有说到kafka成功跑通的例子,这里就结合二者,也是常用的使用之一。1.相关组件版本 首先确认版本,因为跟之前的版本有些不一样,所以才有必要记录下,另外仍然没有使用scala,使用java8,spark 2.0.0,kafka 0.10。2.引入maven包 网上找了一些结合的例子,但是跟我当前版本不一样,所以根本就成功不了,所以探究了下原创 2016-12-26 19:45:14 · 17588 阅读 · 4 评论 -
java8实现spark streaming的wordcount
概念这里就不说了,从案例开始,惯例,hellowrod,哦不,wordcount。 要计算从一个监听 TCP socket 的数据服务器接收到的文本数据(text data)中的字数。 主体代码部分跟spark相差不大,毕竟DStream是RDD产生的模板(或者说类)。原创 2016-12-16 10:07:27 · 3254 阅读 · 2 评论