Spark学习——DataFrame清洗HDFS日志并存入Hive中

雷神乐乐

已于 2023-05-12 21:40:31 修改

阅读量791

点赞数

分类专栏： # Spark 文章标签： hive spark 学习

于 2023-04-11 20:54:02 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Helen_1997_1997/article/details/130027856

版权

Spark 专栏收录该内容

15 篇文章 0 订阅

订阅专栏

目录

1.开启Hadoop集群和Hive元数据、Hive远程连接

3.读取日志文件并清洗

4.单独处理第四列的数据——方法一：

5.单独处理第四列的数据——方法二：

6.单独处理第四列的数据——方法三：

7.数据清洗结果展示

8.存入Hive中

9.DataGrip中的代码

HDFS日志文件内容：

2023-02-20 15:19:46 INFO org.apache.hadoop.hdfs.server.namenode.TransferFsImage: Downloaded file edits_tmp_0000000000000030396-0000000000000033312_0000000000025236168 size 0 bytes.
2023-02-20 15:19:46 INFO org.apache.hadoop.hdfs.server.namenode.Checkpointer: Checkpointer about to load edits from 1 stream(s).
2023-02-20 15:19:46 INFO org.apache.hadoop.hdfs.server.namenode.FSImage: Reading /opt/soft/hadoop313/data/dfs/namesecondary/current/edits_0000000000000030396-0000000000000033312 expecting start txid #30396
2023-02-20 15:19:46 INFO org.apache.hadoop.hdfs.server.namenode.FSImage: Start loading edits file /opt/soft/hadoop313/data/dfs/namesecondary/current/edits_0000000000000030396-0000000000000033312

我们要将上面的日志，使用DataFrame API清洗成表格并存入Hive中，清洗后的表格如下：

1.开启Hadoop集群和Hive元数据、Hive远程连接

2.配置

 val spark: SparkSession = SparkSession.builder().appName("demo01")
      .master("local[*]")
      .config("hive.metastore.uris", "thrift://lxm147:9083")
      .enableHiveSupport()
      .getOrCreate()
    val sc: SparkContext = spark.sparkContext

    import spark.implicits._
    import org.apache.spark.sql.functions._

3.读取日志文件并清洗

// TODO 读取文件清洗
    val df1: DataFrame = sc.textFile("in/hadoophistory.log")
      .map(_.split(" "))
      .filter(_.length >= 8)
      .map(x => {
        val tuple: (String, String, String, String, String) = (x(0), x(1), x(2), x(3), x(4))
        tuple
      }).toDF()
    df1.show(4,false)
    /*
    +----------+--------+----+-------------------------------------------------------+------------+
    |_1        |_2      |_3  |_4                                                     |_5          |
    +----------+--------+----+-------------------------------------------------------+------------+
    |2023-02-20|15:19:46|INFO|org.apache.hadoop.hdfs.server.namenode.TransferFsImage:|Downloaded  |
    |2023-02-20|15:19:46|INFO|org.apache.hadoop.hdfs.server.namenode.Checkpointer:   |Checkpointer|
    |2023-02-20|15:19:46|INFO|org.apache.hadoop.hdfs.server.namenode.FSImage:        |Reading     |
    |2023-02-20|15:19:46|INFO|org.apache.hadoop.hdfs.server.namenode.FSImage:        |Start       |
    +----------+--------+----+-------------------------------------------------------+------------+
    */

4.单独处理第四列的数据——方法一：

  // TODO 单独处理第四列的数据
    val df2: DataFrame =
      df1.withColumn("test", split(col("_4"), "\\."))
        .select(
          $"_1".as("t1"),
          $"_2".as("t2"),
          $"_3".as("t3"),
          col("test").getItem(0).as("a0"),
          col("test").getItem(1).as("a1"),
          col("test").getItem(2).as("a2"),
          col("test").getItem(3).as("a3"),
          col("test").getItem(4).as("a4"),
          col("test").getItem(5).as("a5"),
          col("test").getItem(6).as("a6"),
          $"_5".as("t5")
        )

5.单独处理第四列的数据——方法二：

val df2: DataFrame = 
      df1.rdd.map(
      line => {
        val strings: Array[String] = line.toString().split(",")
        val value: Array[String] = strings(3).split("\\.")
        (strings(0).replaceAll("\\[", ""), strings(1), strings(2),
          value(0), value(1), value(2), value(3), value(4), value(5), value(6),
          strings(4).replaceAll("]", "")
        )
      }
    ).toDF("t1", "t2", "t3", "a1", "a2", "a3", "a4", "a5", "a6", "a7", "t5")

6.单独处理第四列的数据——方法三：

方法三比较麻烦，但是可以对数据类型做单独处理，可以参考我的另一篇博文《Spark高级操作之json复杂和嵌套数据结构的操作》

另一篇博文中读取的日志数据更换了

7.数据清洗结果展示

df2.show(4, truncate = false)

+----------+--------+----+---+------+------+----+------+--------+----------------+------------+
|t1        |t2      |t3  |a1 |a2    |a3    |a4  |a5    |a6      |a7              |t5          |
+----------+--------+----+---+------+------+----+------+--------+----------------+------------+
|2023-02-20|15:19:46|INFO|org|apache|hadoop|hdfs|server|namenode|TransferFsImage:|Downloaded  |
|2023-02-20|15:19:46|INFO|org|apache|hadoop|hdfs|server|namenode|Checkpointer:   |Checkpointer|
|2023-02-20|15:19:46|INFO|org|apache|hadoop|hdfs|server|namenode|FSImage:        |Reading     |
|2023-02-20|15:19:46|INFO|org|apache|hadoop|hdfs|server|namenode|FSImage:        |Start       |
+----------+--------+----+---+------+------+----+------+--------+----------------+------------+

8.存入Hive中

println("正在存储......")
df2.write.mode(SaveMode.Overwrite).saveAsTable("shopping.dataframe")

spark.close()
sc.stop()
println("存储完毕......")

9.DataGrip中的代码

SET hive.exec.compress.output=true;
SET mapred.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec;
SET mapred.output.compression.type=BLOCK;

use shopping;
show tables;
select * from dataframe;

参考文章《将Spark数据帧保存到Hive：表不可读，因为“ parquet not SequenceFile”》

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Spark学习——DataFrame清洗HDFS日志并存入Hive中

DataFrame清洗HDFS日志并存入Hive中
复制链接

扫一扫

专栏目录

雷神乐乐 CSDN认证博客专家 CSDN认证企业博客

码龄2年

169: 原创

2438: 周排名

1万+: 总排名

23万+: 访问

: 等级

2045: 积分

1万+: 粉丝

289: 获赞

32: 评论

1120: 收藏

私信

关注

热门文章

分类专栏

最新评论

SQL经典50题
小吴今天早睡了吗: 另外给好兄弟提个建议，感觉你这套题后面比前面简单，练习起来有点奇怪，从练习的角度应该把题的顺序改一改，由简单到难好一点
SQL经典50题
小吴今天早睡了吗: 好像确实，但是就这道题好像又是对的，因为只有三个老师，教三科，不知道答案到底是啥了，不会写
SQL经典50题
weixin_54801722: 第17题可以简化一下 select student.SID,student.Sname, avg(IFNULL(score,0)) as 平均分, SUM(CASE WHEN CID='01' THEN score else 0 END) as 语文, SUM(CASE CID WHEN '02' THEN score else 0 END) as 数学, SUM(CASE CID WHEN '03' THEN score else 0 END) as 英语 from student LEFT JOIN sc on student.SID=sc.SID GROUP BY student.SID,student.Sname
SQL经典50题
weixin_54801722: 第十六题也有问题，没有查出来考试了但是没有考01科目的学生
SQL经典50题
weixin_54801722: 答案也不对啊，查出来的只是数量相同，不能保证科目也相同

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。