spark清洗离线数据

最新推荐文章于 2024-06-13 18:01:24 发布

请说重点

最新推荐文章于 2024-06-13 18:01:24 发布

阅读量9.6k

点赞数 1

本文链接：https://blog.csdn.net/minHyper/article/details/73199044

版权

最近花了半个月时间研究了一哈scala 感觉可以做的东西还是蛮多了。目前工作清洗40多G的数据很费劲（采用oracle做很费事），所有研究了spark来清洗离线数据。

废话不多说开始程序设计：

首先我想到的是输入这里采用HDFS文件。假设我们将oracle的数据采用json格式的形式并且采用urldecode方法转换文本（因为一些特殊字符常常会导致我们的json文件读取异常，所有我这里采用转码的情况来规避这个问题---这里特殊字符和回车换行对我数据来说是合理的）类型的数据。

主函数代码：

def main(args: Array[String]) {
  //输入文件既可以是本地linux系统文件，也可以是其它来源文件，例如HDFS
  
  init() --加载公参数据
  if (args.length == 0) {
    System.err.println

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注