![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
奔跑着的蜗牛
做一棵永远向阳的向日葵
展开
-
spark集成Hbase小结
本人spark版本2.2.0,hadoop版本2.6.0,hbase版本1.2.0spark通过hive访问外表,进而才能对hbase的数据进行相关操作,同时本人的metastore是存放在mysql里面。接下来spark集成hbase,很简单,把hbase中lib下的以下jar包拷贝到spark中的jars文件夹下面:重新开启bin/spark-shell进入spark,即可通过...原创 2019-04-10 14:17:07 · 922 阅读 · 0 评论 -
SparkStreaming与kafka的整合小结
Spark的流处理,不光是分批还是进行结构化,都能很好的处理来自kafka或socket的数据。接下来说说spark与kafka整合的步骤,以免发生各种各样的错误(原本大数据的生态多,spark的版本更新和功能迭代快,为了少出现错误,最好遵循原版说明)1.首先你要确认好你的spark版本和kafka的版本,因为不同的版本有可能导入的包不一样和程序写法不一样2.开发时pom.xml...原创 2019-04-12 12:39:20 · 415 阅读 · 0 评论 -
Spark DataFrame自定义函数用于指定列 column UDF scala版
查了好多东西,Spark DataFrame对列进行操作,agg不能满足对列的所有元素进行广播。不像Python中的DataFrame操作那样方便。后来发现我们可以使用UDF来注册自定义的函数,从而像使用min、max函数一样方便操作。 spark版本:2.2.0 大致过程分为:自定义函数,只能有一个参数和一个返回值 ...原创 2019-07-24 15:27:01 · 2278 阅读 · 0 评论