spark
文章平均质量分 78
徐雄辉
这个作者很懒,什么都没留下…
展开
-
Spark整合Elastic
通过elasticsearch-hadoop可以将spark 处理后的数据保存在Elastic上,后续数据的检查和查询非常方便。 https://db-blog.web.cern.ch/blog/prasanth-kothuri/2016-05-integrating-hadoop-and-elasticsearch-%E2%80%93-part-2-%E2%80%93-writing-and...原创 2019-11-26 14:09:33 · 223 阅读 · 0 评论 -
使用spark-submit提交到的各个模式原理图解
Standalone-client提交任务方式 提交命令 ./spark-submit --master spark://node1:7077 --class org.apache.spark.examples.SparkPi ../lib/spark-examples-1.6.0-hadoop2.6.0.jar 1000 或者 ./spark-submit --master s...原创 2019-11-25 14:06:34 · 787 阅读 · 0 评论 -
spark : foreachpartition
spark的运算操作有两种类型:分别是Transformation和Action,区别如下: Transformation:代表的是转化操作就是我们的计算流程,返回是RDD[T],可以是一个链式的转化,并且是延迟触发的。 Action:代表是一个具体的行为,返回的值非RDD类型,可以一个object,或者是一个数值,也可以为Unit代表无返回值,并且action会立即触发job的执行。 Tr...转载 2018-09-15 17:18:23 · 2129 阅读 · 0 评论 -
Spark:Driver和Job,Stage概念
Driver Program, Job和Stage是Spark中的几个基本概念。Spark官方文档中对于这几个概念的解释比较简单,对于初学者很难正确理解他们的涵义。 官方解释如下(http://spark.apache.org/docs/latest/cluster-overview.html): Driver Program: 运行应用程序的main()函数并创建SparkContext的过程...原创 2018-09-15 18:36:41 · 1128 阅读 · 0 评论 -
Spark 序列化问题全解
本文主要从以下三个方面解释Spark 应用中序列化问题 。 1、Java序列化含义。 2、Spark代码为什么需要序列化。 3、如何解决Spark序列化问题。 1、Java序列化含义。 Spark是基于JVM运行的进行,其序列化必然遵守Java的序列化规则。 序列化就是指将一个对象转化为二进制的byte流(注意,不是bit流),然后以文件的方式进行保存或通过网络传输,等待被反序列化读取出...转载 2018-09-17 11:08:02 · 1555 阅读 · 0 评论