SparkSQL，创建表，查询数据，加载文件，处理文件，存储文件_sparksql,创建表,查询数据,加载文件,处理文件,存储文件-CSDN博客

本文链接：https://blog.csdn.net/qq_43241439/article/details/103320031

本文档详细介绍了如何使用Spark SQL在Linux环境下处理数据，包括创建orders和order_items表，加载HDFS文件，进行join操作，统计用户购买商品信息，以及处理goods_visit.json文件，进行数据查询、过滤、分组统计等操作，并将结果保存为parquet格式。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

实验思路：

SparkSQL，创建表，查询数据

任务内容

某电商平台，需要对订单数据进行分析，已知订单数据包括两个文件，分别为订单数据orders和订单明细数据order_items，orders记录了用户购买商品的订单ID，订单号，用户ID及下单日期。order_items记录了商品ID，订单ID以及明细ID。它们的结构与关系如下图所示：

orders表：（order_id,order_number,buyer_id,create_dt）

order_items表：（item_id,order_id,goods_id ）

创建orders表和order_items表，并统计该电商网站都有哪些用户购买了什么商品。

任务步骤

1.首先检查Hadoop相关进程，是否已经启动。若未启动，切换到/apps/hadoop/sbin目录下，启动Hadoop。

2.在Linux本地新建/data/spark5目录。

view plain copy

3.切换到/data/spark5目录下，使用wget命令，下载http://192.168.1.100:60000/allfiles/spark5中的orders和order_items。

4.首先，在HDFS上新建/my