大数据
凉拌豌豆尖
这个作者很懒,什么都没留下…
展开
-
使用java编写spark UDF
1、背景 最近对接一些数据,其中有一个日期字段的数据是这样的 26/04/201711:11:17 我需要把它转成正常的YYYY-MM-dd HH:mm:ss的格式,由于文件都在hdfs上,所以只有写spark的udf函数来处理,以前处理spark,都是撸scala,但是最近这个项目主要用java,处理数据只是一个很小的部分,所以打算用java来搞定,因此决定研究下java写spark的udfspark 版本 2.4.3scala代码package orgimport java.text.Si原创 2021-05-13 14:31:28 · 2672 阅读 · 3 评论 -
windows下IDEA使用spark连接hive
1、前言 由于需要在本地环境连接测试集群相关的一些数据,传统方式需要先打jar包,然后再放在集群上使用spark-submit,这样非常麻烦,所以在网上找了下开发环境使用sparksql连接hive的方法,经过许久的折腾,总算弄成功了,特此记录一下。2、准备 A、配置文件把集群上的hadoop etc/hadoop目录下的core-site.xml hdfs-site.xml (读取hdfs上的文件必须)hive的配置文件 hive-site.xml(读取hive必须)拷贝到resource原创 2021-05-13 13:51:20 · 856 阅读 · 2 评论