向Hive导入TPC-H测试数据集

在数据库和大数据领域,TPC提供的基准测试数据集是做Benchmark的事实标准。常用且主要的TPC数据集有如下几种:

  • TPC-C:模拟一个库存-订单系统以及其上的多用户并发事务;
  • TPC-DI:模拟多种类型的大数据源的ETL过程;
  • TPC-DS:模拟大型零售业务的系统,该系统主要用于BI和决策支持,数据量和OLAP查询复杂度都很高,是TPC数据集中最大的;
  • TPC-E:模拟证券经纪人的系统,该系统主要用于提供大量查询的OLTP服务;
  • TPC-H:可以近似视为TPC-DS的简化版本。

最近正在写一篇大数据领域SQL优化器(基于规则优化、基于代价优化)方面的文章,需要现成的基准数据来做支持,TPC正好符合这种需求。下面选择TPC-H来生成测试数据,并将其导入到Hive。

来到http://www.tpc.org/tpc_documents_current_versions/current_specifications.asp,其中列出了当前有效的TPC数据集文档以及源码。点击图中红框链接的TPC-H源码。

195230-df2c06698013e4ff.png

然后会要求填写包括邮箱在内的基本信息,点击captcha确认之后,下载链接会发送到邮箱,直接下载即可。注意有效期只有3个小时。

195230-0aaff29463fb718e.png

将其上传到服务器上空间比较充裕的分区,并解压之,然后修改其中的makefile文件。

~ cd /var/tpc-h/2.18.0_rc2/dbgen
~ cp makefile.suite makefile
~ vim makefile

################
## CHANGE NAME OF ANSI COMPILER HERE
################
CC      = gcc
# Current values for DATABASE are: INFORMIX, DB2, TDAT (Teradata)
#                                  SQLSERVER, SYBASE, ORACLE, VECTORWISE
# Current values for MACHINE are:  ATT, DOS, HP, IBM, ICL, MVS,
#                                  SGI, SUN, U2200, VMS, LINUX, WIN32
# Current values for WORKLOAD are:  TPCH
DATABASE = SQLSERVER
MACHINE = LINUX
WORKLOAD = TPCH

如果机器上没有GCC的话,就另外安装。从上面的数据库支持列表可以看出并没有原生支持Hive,所以就得借助其他类型(比如SQL Server),再修改一下源码,将其对应的语句改成Hive风格的。

~ vim tpcd.h

#ifdef  SQLSERVER
#define GEN_QUERY_PLAN  "explain;"
#define START_TRAN      "start transaction;\n"
#define END_TRAN        "commit;\n"
#define SET_OUTPUT      ""
#define SET_ROWCOUNT    "limit %d;\m"
#define SET_DBASE       "use %s;\n"
#endif

在该目录下执行make命令,再执行./dbgen -s 5命令,即可以生成测试数据。其中5代表数据大小为5个SF,可以视需要更改。SF为TPC中描述数据量的单位,1个SF约等于1GB(仅包含原始数据量,不包含索引等其他结构)。最终会生成8个扩展名为.tbl的文件,代表8张表的数据,如下图所示。

195230-d5337b87e0ccfcbd.png

建表语句在dss.ddl文件中,但是它的格式与HiveQL不符,因此需要另外改写建表语句,如下所示。

create database tpch;
use tpch;

create external table lineitem (
  l_orderkey int, 
  l_partkey int,
  l_suppkey int,
  l_linenumber int,
  l_quantity double,
  l_extendedprice double,
  l_discount double,
  l_tax double,
  l_returnflag string,
  l_linestatus string,
  l_shipdate string,
  l_commitdate string,
  l_receiptdate string,
  l_shipinstruct string,
  l_shipmode string,
  l_comment string) 
row format delimited 
fields terminated by '|' 
stored as textfile 
location '/tpch/lineitem';
 
create external table nation (
  n_nationkey int,
  n_name string,
  n_regionkey int,
  n_comment string) 
row format delimited 
fields terminated by '|' 
stored as textfile 
location '/tpch/nation';
 
create external table region (
  r_regionkey int,
  r_name string,
  r_comment string) 
row format delimited 
fields terminated by '|' 
stored as textfile 
location '/tpch/region';
 
create external table part (
  p_partkey int, 
  p_name string, 
  p_mfgr string, 
  p_brand string, 
  p_type string, 
  p_size int, 
  p_container string, 
  p_retailprice double, 
  p_comment string) 
row format delimited 
fields terminated by '|' 
stored as textfile 
location '/tpch/part';
 
create external table supplier (
  s_suppkey int, 
  s_name string,
  s_address string, 
  s_nationkey int, 
  s_phone string, 
  s_acctbal double, 
  s_comment string) 
row format delimited 
fields terminated by '|' 
stored as textfile 
location '/tpch/supplier';
 
create external table partsupp (
  ps_partkey int, 
  ps_suppkey int, 
  ps_availqty int, 
  ps_supplycost double, 
  ps_comment string) 
row format delimited 
fields terminated by '|' 
stored as textfile 
location '/tpch/partsupp';
 
create external table customer (
  c_custkey int, 
  c_name string, 
  c_address string, 
  c_nationkey int, 
  c_phone string,
  c_acctbal double, 
  c_mktsegment string, 
  c_comment string) 
row format delimited 
fields terminated by '|' 
stored as textfile 
location '/tpch/customer';
 
create external table orders (
  o_orderkey int, 
  o_custkey int, 
  o_orderstatus string,
  o_totalprice double,
  o_orderdate date, 
  o_orderpriority string, 
  o_clerk string, 
  o_shippriority int, 
  o_comment string) 
row format delimited 
fields terminated by '|' 
stored as textfile 
location '/tpch/orders';

以上8个表的Schema如下图,其行数也是SF的倍数。

195230-179fb36b81a16f6a.png

接下来就可以用load data语句导入数据了,以lineitem表为例。

load data local inpath '/var/tpc-h/2.18.0_rc2/dbgen/lineitem.tbl' 
into table tpch.lineitem;

TPC-H一共有22条基准SQL查询,把它们都改写成Hive风格显然很费事。好在这件事已经有人做过了,见HIVE-600。下载其中的压缩包并解压,tpch文件夹中的文件即是。

195230-3d14d4e5ae4feb7b.png

关于这22条语句的具体分析,可以查看之前下载下来的压缩包中Specification文档,也可以参考中文版的分析

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
您可以按照以下步骤将 Hive 的配置文件 `hive-site.xml` 导入 SparkSQL 中: 1. 将 `hive-site.xml` 文件复制到 Spark 的配置目录下。默认情况下,Spark 的配置目录是 `$SPARK_HOME/conf`,其中 `$SPARK_HOME` 是 Spark 的安装路径。 2. 在 SparkSQL 中创建一个 `SparkSession` 对象,并在创建之前设置一些相关的配置项。可以参考下面的示例代码: ```scala import org.apache.spark.sql.SparkSession val spark = SparkSession .builder() .appName("SparkSQL with Hive integration") .config("spark.sql.warehouse.dir", "/user/hive/warehouse") // 设置 Hive 仓库目录 .config("hive.metastore.uris", "thrift://localhost:9083") // 设置 Hive Metastore 的连接地址 .enableHiveSupport() // 启用 Hive 支持 .getOrCreate() ``` 在上面的示例中,您需要根据您的实际环境修改 `spark.sql.warehouse.dir` 和 `hive.metastore.uris` 的值。`spark.sql.warehouse.dir` 是 Hive 仓库目录的路径,`hive.metastore.uris` 是 Hive Metastore 的连接地址。 3. 使用 `spark.sql` 对象执行 Hive 相关的操作。例如,您可以执行 SQL 查询、创建表等。下面是一个简单的示例: ```scala spark.sql("SELECT * FROM my_table").show() ``` 上述代码将执行一条查询语句,从名为 `my_table` 的 Hive 表中检索数据,并将结果显示在控制台上。 请注意,您还需要确保 Spark 和 Hive 的版本兼容,并且 Hive Metastore 服务正在运行。另外,如果您的 Spark 集群和 Hive Metastore 服务部署在不同的机器上,您需要相应地修改 `hive.metastore.uris` 的值。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值