用户画像环境搭建

最新推荐文章于 2024-02-16 00:05:38 发布

Running_Tiger

最新推荐文章于 2024-02-16 00:05:38 发布

阅读量1k

点赞数 1

分类专栏：用户画像文章标签： spark hql

本文链接：https://blog.csdn.net/qq_41455420/article/details/79576411

版权

用户画像专栏收录该内容

16 篇文章 4 订阅

订阅专栏

用户画像环境搭建

Hive的执行任务是将hql语句转化为MapReduce来计算，查询耗时长。主要原因是Hive原生基于MapReduce的，如果我们不生成MapReduce Job，而是生成Spark Job，就可以充分利用Spark的快速执行能力来缩短HiveHQL的响应时间。

本项目采用SparkSql与hive进行整合，通过SparkSql读取hive中表的元数据，快速的为用户打上标签构建用户画像。

1、环境准备

2、sparksql整合hive

Spark SQL主要目的是使得用户可以在Spark上使用SQL，其数据源既可以是RDD，也可以是外部的数据源（比如文本、Hive、Json等）。Spark SQL的其中一个分支就是Spark on Hive，也就是使用Hive中HQL的解析、逻辑执行计划翻译、执行计划优化等逻辑，可以近似认为仅将物理执行计划从MR作业替换成了Spark作业。SparkSql整合hive就是获取hive表中的元数据信息，然后通过SparkSql来操作数据。

整合步骤：

1、需要将hive-site.xml文件拷贝到Spark的conf目录下，这样就可以通过这个配置文件找到Hive的元数据以及数据存放位置。
2、如果Hive的元数据存放在Mysql中，我们还需要准备好Mysql相关驱动，比如：mysql-connector-java-5.1.35.jar

3、测试sparksql整合hive是否成功

先启动hadoop集群，在启动spark集群，确保启动成功之后执行命令：

/var/local/spark/bin/spark-sql  --master spark://node-1:7077  --executor-memory 1g  --total-executor-cores 2

指明master地址、每一个executor的内存大小、一共所需要的核数、mysql数据库连接驱动。
执行成功后的界面：进入到spark-sql 客户端命令行界面。

这里写图片描述

接下来就可以通过sql语句来操作数据库表：
查看当前有哪些数据库show databases;

这里写图片描述
看到以上结果，说明sparksql整合hive成功！
日志太多，我们可以修改spark的日志输出级别(conf/log4j.properties)

注意：
在spark2.0版本后由于出现了sparkSesssion，在初始化sqlContext的时候，会设置默认的spark.sql.warehouse.dir=spark-warehouse,
此时将hive与sparksql整合完成之后，在通过spark-sql脚本启动的时候，还是会在哪里启动spark-sql脚本，就会在当前目录下创建一个spark.sql.warehouse.dir为spark-warehouse的目录，存放由spark-sql创建数据库和创建表的元数据库信息，与之前hive的元数据库信息不是放在同一个路径下（可以互相访问）。但是此时spark-sql的元数据库在本地，不利于操作，也不安全。

所有在启动的时候需要加上这样一个参数：
–conf spark.sql.warehouse.dir=hdfs://node-1:9000/user/hive/warehouse
保证spark-sql启动时不在产生新的元数据库，sparksql与hive最终使用的是hive同一元数据库。
如果使用的是spark2.0之前的版本，由于没有sparkSession，不会有spark.sql.warehouse.dir配置项，不会出现上述问题。

最后的执行脚本：

spark-sql \
--master spark://node-1:7077 \
--executor-memory 1g \
--total-executor-cores 2 \
--conf  spark.sql.warehouse.dir=hdfs://node-1:9000/user/hive/warehouse

喜欢就点赞评论+关注吧

这里写图片描述