scala实现spark读取文件、清洗、入库base中

最新推荐文章于 2024-06-13 18:01:24 发布

贝特爱

最新推荐文章于 2024-06-13 18:01:24 发布

阅读量1.8k

点赞数

分类专栏：大数据文章标签：大数据 scala 数据库

本文链接：https://blog.csdn.net/iteye_4668/article/details/82681052

版权

日常工作中我们往往面对的数据都是海量的文件数据，我们如何快速通过spark将文件导入到hbase库中，我这写了一个简单的例子仅供参考，实际上数据是需要经过清洗才能放入到hbase库中的。由于数据文件内容涉及到公司实际项目，不便贴出，此文着重spark提出数据、清洗、入hbase库这个逻辑的实现，scala写的代码比较精简，代码如下： ParseClien...

摘要由CSDN通过智能技术生成

日常工作中我们往往面对的数据都是海量的文件数据，我们如何快速通过spark将文件导入到hbase库中，我这写了一个简单的例子仅供参考，实际上数据是需要经过清洗才能放入到hbase库中的。

由于数据文件内容涉及到公司实际项目，不便贴出，此文着重spark提出数据、清洗、入hbase库这个逻辑的实现，scala写的代码比较精简，代码如下：

ParseClient.java主要实现文件加载、清洗、入库的工作：

package main.scala

import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
import scala.collection.mutable.ListBuffer
import org.apache.hadoop.hbase.util.Bytes
import org.apache.hadoop.hbase.client.Put
import org.apache.hadoop.hbase.io.ImmutableBytesWritable
import org.apache.spark.rdd.RDD.rddToPairRDDFunctions
import scala.collection.mutable.ListBuffer

object ParseClient {
  def main(args: Array[String]) {
    val conf = new SparkConf();
conf.setAppName("ParseClient")
    conf.setMaster("local");
val sc = new SparkContext(conf);
val textRdd = sc.textFile("WW_2016-10-13～2016-10-13.txt");
---数据清洗
var smailList = new ListBuffer[String]();
val arrRdd = textRdd.flatMap { line => {
      val allList = new ListBuffer[ListBuffer[String]]();
if (line == "" || "".equals(line)) {
        allList += smailList;
smailList = new ListBuffer[String]();
} else {
        smailList +=

最低0.47元/天解锁文章

贝特爱

关注

0
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
scala实现spark读取文件、清洗、入库base中

日常工作中我们往往面对的数据都是海量的文件数据，我们如何快速通过spark将文件导入到hbase库中，我这写了一个简单的例子仅供参考，实际上数据是需要经过清洗才能放入到hbase库中的。由于数据文件内容涉及到公司实际项目，不便贴出，此文着重spark提出数据、清洗、入hbase库这个逻辑的实现，scala写的代码比较精简，代码如下： ParseClien...
复制链接

扫一扫

专栏目录