【考试真题】2020年10月份机试试卷-CSDN博客

本文链接：https://blog.csdn.net/helltaker/article/details/112972052

2020年10月份机试试卷

一、环境要求
二、提交结果要求
三、数据描述
四、功能要求

一、环境要求

Hadoop+Hive+Spark+HBase 开发环境。

二、提交结果要求

1.必须提交源码或对应分析语句，如不提交则不得分。
2.带有分析结果的功能，请分析结果的截图与代码一同提交。

三、数据描述

UserBehavior 是阿里巴巴提供的一个淘宝用户行为数据集。本数据集包含了 2017-09-11 至 2017-12-03 之间有行为的约 5458 位随机用户的所有行为（行为包括点击、购买、加购、喜欢）。数据集的每一行表示一条用户行为，由用户 ID、商品 ID、商品类目 ID、行为类型和时间戳组成，并以逗号分隔。关于数据集中每一列的详细描述如下具体字段
说明如下：
在这里插入图片描述
注意到，用户行为类型共有四种，它们分别是

四、功能要求

1.数据准备（10 分）

① 请在 HDFS 中创建目录/data/userbehavior，并将 UserBehavior.csv 文件传到该目录。（5 分）

hdfs dfs -mkdir -p /data/userbehavior
hdfs dfs -put /opt/kb09File/UserBehavior.csv /data/userbehavior

② 通过 HDFS 命令查询出文档有多少行数据。（5 分）

hdfs dfs -cat /data/userbehavior/UserBehavior.csv | wc -l

在这里插入图片描述

2.数据清洗（40 分）

① 请在 Hive 中创建数据库 exam（5 分）

create database exam202010;
use exam202010;

② 请在 exam 数据库中创建外部表 userbehavior，并将 HDFS 数据映射到表中（5 分）

create external table if not exists ex_userbehavior(
	user_id string,
	item_id string,
	category_id string,
	behavior_type string,
	action_timestamp string)
row format delimited
fields terminated by ','
stored as textFile
location '/data/userbehavior/';

③ 请在 HBase 中创建命名空间 exam，并在命名空间 exam 创建 userbehavior 表，包含一个列簇 info（5 分）