![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
文章平均质量分 68
枏
这个作者很懒,什么都没留下…
展开
-
SparkRDD三种数据持久化/数据重用(persist cache checkpoint)
一般情况下,RDD的计算过程是不会保留数据的。所以在重复使用RDD对象时,并不会重用数据,而是又重新计算了一遍,浪费资源、时间。为了实现数据的重用,避免重复计算,需要进行持久化操作当然,对于某些大数据量、计算时间过长的操作来说,因为有可能出现计算错误而导致从源头开始又计算一遍的情况,所以也需要进行数据持久化操作。persist()persist()会把数据临时缓存在内存、磁盘当中(可手动指定)。若涉及到磁盘IO,则性能会受到影响。但保存在磁盘时数据也会较为安全。如果只保存在内存当中(StorageL原创 2021-04-25 13:08:48 · 520 阅读 · 1 评论 -
为什么把Spark RDD中的方法称之为算子?和Scala中的方法有什么不同?
算子也就是Operator(操作)不同的称呼是为了区分RDD的方法和Scala集合对象的方法Scala集合对象的方法都是在同一个节点的内存中完成的RDD的方法可以将计算逻辑发送到Executor端(分布式节点)执行RDD的方法 外部操作都是在Driver端执行,而方法内部的逻辑代码是在Executor端执行例如:...原创 2021-04-24 11:38:56 · 477 阅读 · 2 评论 -
spark中coalesce、repartition和partitionBy的异同
目录coalesce为什么要合并缩小分区coalesce使用减小分区这里出现数据倾斜的详细解释扩大分区coalesce和repartitionshufflepartitionBypartitionBy的使用隐式转换默认分区器`HashPartitioner`在Spark中,这三者都是针对分区操作的,功能较为类似我的测试环境如下:win10scala2.12.10spark-3.1.1-bin-hadoop3.2hadoop3.2.2coalescecoalesce既可以实现RDD分区的合原创 2021-04-21 00:56:54 · 1003 阅读 · 0 评论 -
基于Spark实现从服务器日志数据apache.log中获取每个时间段访问量
目录要求日志数据代码部分结果要求在Spark环境中,实现从服务器日志数据apache.log中获取每个时间段访问量这里以一个小时为时间段,不考虑年份日期日志数据资源还在审核中,通过后免费下载,以下是部分数据,供临时测试:83.149.9.216 - - 17/05/2015:10:05:03 +0000 GET /presentations/logstash-monitorama-2013/images/kibana-search.png83.149.9.216 - - 17/05/2015:原创 2021-04-19 00:06:14 · 943 阅读 · 0 评论 -
spark 运行自带样例SparkPi、spark-examples报错
错误:scala> ./spark-submit --class org.apache.spark.examples.SparkPi --master local[2] ../examples/jars/spark-examples_2.12-3.10.1.jar 10scala> spark-submit --class org.apache.spark.examples.SparkPi --master local[2] ../examples/jars/spark-examples_原创 2021-04-15 12:12:39 · 10854 阅读 · 6 评论 -
树莓派运行spark-shell出错
在运行spark-shell时出错,检查自己的java版本,一定不要使用openJDK安装的jdk直接从orcale官网下载对应的arm 32/64 的版本:安装过程参考此文原创 2021-04-10 10:48:17 · 126 阅读 · 0 评论