![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
小小北漂
专注于大数据开发、调优、运维和web、爬虫相关开发
展开
-
scala 偏函数与 map/collect
0. collect 与 map 的区别由于collect方法接收的是一个偏函数类型,所以它并不能接收一个lambda表达式:scala> List(1, 3, 5, "seven").collect(i => i + 1)error: type mismatch;scala> List(1, 3, 5, "seven").collect{case i => ...转载 2019-12-28 23:10:31 · 570 阅读 · 0 评论 -
Spark-Streaming 和Kafka连接的两种方式
本篇文章转载自https://my.oschina.net/u/1250040/blog/908571。作者对于Spark-streaming和Kafka的连接做了比较详细的介绍。对于理解Spark-Streaming和Kafka有很大帮助。概述Spark Streaming 支持多种实时输入源数据的读取,其中包括Kafka、flume、socket流等等。除了Ka转载 2017-08-10 10:17:59 · 428 阅读 · 0 评论 -
Spark与HBase的整合
前言之前因为仅仅是把HBase当成一个可横向扩展并且具有持久化能力的KV数据库,所以只用在了指标存储上,参看很早之前的一篇文章基于HBase做Storm 实时计算指标存储。这次将HBase用在了用户行为存储上,因为Rowkey的过滤功能也很不错,可以很方便的把按人或者内容的维度过滤出所有的行为。从某种意义上,HBase的是一个有且仅有一个多字段复合索引的存储引擎。虽然我比较推崇实时转载 2017-07-28 14:08:45 · 3503 阅读 · 0 评论 -
spark,hadoop,hbase集群无法停止的问题
长时间运行集群之后,如何需要停止集群使用stop相关命令时常常会都提示no datanode,no namenode等等之类的信息,查看相关stop-all.sh stop-dfs.sh,stop-yarn.sh脚本,发现原理都是通过一个pid文件来停止集群的。这些进程的pid文件默认都是保存在系统的/tmp目录下面,系统每个一段时间就会清楚/tmp下面的内容,于是我ls /tmp看了一下,果转载 2017-08-14 16:54:21 · 1380 阅读 · 0 评论 -
Spark搭档Elasticsearch
摘要: Spark与elasticsearch结合使用是一种常用的场景,小编在这里整理了一些Spark与ES结合使用的方法。Spark与elasticsearch结合使用是一种常用的场景,小编在这里整理了一些Spark与ES结合使用的方法。一、 write data to elasticsearch利用elasticsearch Hadoop可以将任何的RDD保存到Elastics转载 2018-02-05 10:29:28 · 481 阅读 · 0 评论 -
Spark Streaming重复消费,多次输出问题剖析与解决方案
1,Exactly once事务什么事Exactly once事务?数据仅处理一次并且仅输出一次,这样才是完整的事务处理。Spark在运行出错时不能保证输出也是事务级别的。在Task执行一半的时候出错了,虽然在语义上做了事务处理,数据仅被处理一次,但是如果是输出到数据库中,那有空能将结果多次保存到数据库中。Spark在任务失败时会进行重试,这样会导致结果多次保存到数据库中。如下...转载 2019-03-20 16:51:44 · 447 阅读 · 0 评论 -
优雅解决Spark Application jar包冲突问题
前言当我们开发的Spark Application变得越来越复杂,依赖的jar包越来越多时,难免会碰到jar包冲突的问题。举个例子:我们的业务代码用到了一个第三方库,好比:guava(虽然好用,但是版本间的兼容性差的一坨翔) Spark本身也依赖了guava,但是和业务代码中依赖的guava版本不同这种情况下,把我们的Spark Application提交到集群里执行,很有可能因为...转载 2019-03-18 15:13:08 · 4002 阅读 · 1 评论 -
DataFrame、Dataset、RDD的区别与联系及相互之间的转换
文章出处:https://blog.csdn.net/fct2001140269/article/details/82560862转载 2019-04-03 17:34:45 · 164 阅读 · 0 评论