![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hive
kingloneye
相信会更好!
展开
-
hive之collect_set函数和日期处理函数
collect_set函数1)创建原数据表hive (test)>drop table if exists test_collect_set_stud;create table test_collect_set_stud (name string, area string, course string, score int);2)向原数据表中插入数据hive (test)>insert into table test_collect_set_stud values('zhang3原创 2020-12-07 11:49:21 · 557 阅读 · 0 评论 -
使用yum 安装CDH版本 Hive
因为 Hive 需要使用 MySQL 作为元数据库, 所以需要在 MySQL 为 Hive 创建用户, 创建对应的表安装 Hive 软件包在 MySQL 中增加 Hive 用户配置 Hive初始化 Hive 在 MySQL 中的表结构启动 Hive因为我们并不需要 Hive 的 HA, 所以在单机部署 Hive 即可Step 1: 安装 Hive 软件包安装 Hive 依然使用 CDH 的 Yum 仓库yum install -y hive hive-met.原创 2020-10-27 16:15:08 · 335 阅读 · 0 评论 -
Cannot find hadoop installation: $HADOOP_HOME or $HADOOP_PREFIX must be set or hadoop must be in the
通过yum安装cdh版hive后,启动hive报错:Cannot find hadoop installation: $HADOOP_HOME or $HADOOP_PREFIX must be set or hadoop must be in the path解决方案:在hive的配置文件里加如hadoop的路径即可vim /etc/hive/conf/hive-env.sh export HADOOP_HOME=/usr/lib/hadoop...原创 2020-10-27 15:53:33 · 5132 阅读 · 0 评论 -
(Hive与HBase集成)hive读取分析hbase表的数据
需求:在hbase上已经有数据了,我们需要将数据放到hive中进行分析处理1、启动环境a.启动hadoop集群sbin/start-all.shb.启动zookeeper集群zkServer.sh startc.启动hbasecd hbasebin/start-hbase.sh./hbase shelllist -- 查看表d.启动hivecd /opt/hive/bin./hive2、新建hbase表 classes:create 'classes','user'原创 2020-07-12 01:37:49 · 999 阅读 · 0 评论 -
Spark 操作hive实战练习
一、最终需求:预测,在test里面的用户,下一个订单会购买哪些商品比如:user3,已经有了5月5号的订单(不公开)来评测模型的我们有的是5月4号之前的历史数据我们需要预测,通过历史(5月4号之前订单数据),预测这个用户5月5号买了什么1、数据准备:a、在hive中创建orders订单外部表b、在hive中创建products商品外部表c、在hive中创建priors(order_products__prior)订单商品关联外部表查看hadoop上文件前几行数据hadoop fs -ca原创 2020-07-10 10:54:45 · 517 阅读 · 0 评论 -
使用外部数据源综合查询Hive和MySQL的表数据
import org.apache.spark.sql.SparkSession/** * 使用外部数据源综合查询Hive和MySQL的表数据 */object HiveMySQLApp { def main(args: Array[String]) { val spark = SparkSession.builder().appName("HiveMySQLApp") .master("local[2]").getOrCreate() // 加载Hive表数据原创 2020-06-06 23:14:14 · 178 阅读 · 0 评论 -
【spark-sql】使用JDBC编程访问,spark访问hive
使用JDBC访问,spark访问hive1.启动thriftserver服务 (一定先启动服务,否则会报错)./start-thriftserver.sh --master local[2] --jars /opt/mysql-connector-java-5.1.22-bin.jar 2.引入hive-jdbc包 <dependency> <groupId>org.spark-project.hive</groupId> <ar原创 2020-06-06 20:37:16 · 556 阅读 · 0 评论 -
【spark-sql】使用thriftserver/beeline,spark访问hive
一、使用thriftserver/beeline,spark访问hive1.启动thriftserver:默认端口是10000 (端口可以修改)cd /opt/spark/sbin./start-thriftserver.sh --master local[2] --jars /opt/mysql-connector-java-5.1.22-bin.jar 2.启动beeline -n 用户名./beeline -u jdbc:hive2://localhost:10000 -n root原创 2020-06-06 20:14:14 · 558 阅读 · 0 评论 -
【spark-sql】使用spark-sql或spark-shell访问hive
一、使用spark-shell ,spark访问hive1.将/opt/hive/conf/hive-site.xml复制到/opt/spark/conf目录下2.–jars 传递mysql驱动包3.运行spark-shell./spark-shell --master local[2] --jars /opt/mysql-connector-java-5.1.22-bin.jarspark.sql("show tables").show2、使用spark-sql,spark访问hive原创 2020-06-05 09:17:59 · 749 阅读 · 0 评论 -
hive之分析(三)
接hive练习一每个用户有多少个订单?select t.user_id ,count(1) as order_count from orders t group by t.user_idorder by order_count desc limit 10;二、每个用户平均每个订单平均是多少商品因为orders表中只有用户和订单的数据,需要关联priors或者trains表,才能...原创 2020-04-19 17:04:00 · 209 阅读 · 0 评论 -
hive之分析(二)
一、数据准备准备数据,并将数据上传到/opt/bigdatas二、数据说明aisles.csv departments.csv order_products__prior.csv order_products__train.csv orders.csv products.csvaisles 通道 货架的编号 (二级类别) 维度表aisle_id,aisledepartm...原创 2020-04-19 16:08:29 · 188 阅读 · 0 评论 -
hive外部表及分析(一)
一、启动hadoop集群cd /opt/hadoop/sbin./start-all.sh二、准备数据cd /opt/bigdatas/上传u.data数据,将linux本地u.data上传到hadoop:hadoop fs -put /opt/bigdatas/u.data /opt/bigdata/hadoop fs -ls /opt/bigdata/三、远程连接hiv...原创 2020-04-17 00:10:01 · 270 阅读 · 0 评论 -
hive相关命令
显示命令:修改表命令:修改分区:原创 2020-03-23 21:44:51 · 94 阅读 · 0 评论 -
hive内部表和外部表&&LIKE 复制
hive内部表和外部表:hive 创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅记录数据所在的路径,不对数据的位置做任何改变。在删除表的时候,内部表的元数据和数据会被一起删除,而外部表只删除元数据,不删除数据。EXTERNAL 关键字可以让用户创建一个外部表,在建表的同时指定一个指向实际数据的路径(LOCATION)例如:创建内部表:create table stu...原创 2020-03-23 20:33:21 · 856 阅读 · 0 评论 -
hive创建分桶表
1.指定分桶:开启分桶功能在hive连接中set hive.enforce.bucketing=true; --默认是flaseset mapreduce.job.reduces=4; --默认是-12.创建分桶表:分桶表创建的时候,分桶字段必须是表中的字段create table student_buck(Sno int,Sname string,Sex string,Sag...原创 2020-03-23 19:58:28 · 1178 阅读 · 0 评论 -
hive创建双分区表
1.连接同《hive创建分区表》2.创建双分区表create table t_day_hour(id int,name string,age int) partitioned by(dt string,hour string) row format delimited fields terminated by ',';3.导入数据LOAD DATA local INPATH '/opt/...原创 2020-03-22 22:49:36 · 3922 阅读 · 0 评论 -
MetaException(message:For direct MetaStore DB connections, we don't support retries at the client le
导入hive分区数据报错:解决方法:在mysql中执行以下命令:drop database hive_db;create database hive_db;alter database hive_db character set latin1;重启hive原创 2020-03-22 22:28:12 · 700 阅读 · 0 评论 -
hive创建分区表
1.在hadoop01下启动hive,作为服务器,hadoop02远程连接hadoop01:cd /opt/hive/bin./hiveserver2hadoop02远程连接:cd /opt/hivebin/beeline! connect jdbc:hive2://hadoop01:10000输入hadoop01账号密码show databases;create data...原创 2020-03-22 22:24:53 · 233 阅读 · 0 评论 -
hive创建表报错:Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask
HIVE创建表时,出现以下错误: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:For direct MetaStore DB connections, we don't support retries at the client level.)...原创 2020-03-22 13:41:26 · 2702 阅读 · 0 评论 -
初体验hive创建映射
1.在hadoop01,/data下创建hivedata目录,并新增1.txt文件2.将1.txt上传到hadoop中cd /data/hivedatahadoop fs -mkdir /hivedatahadoop fs -put 1.txt /hivedata打开浏览器:http://hadoop01:50070/explorer.html显示在/hivedata下有个1....原创 2020-03-22 13:37:11 · 441 阅读 · 0 评论 -
hive连接方式
一、shell 直接连接bin/hivecreate database test;show databases; 有的话,实现数据库共享use test;二、hive启动为一个服务器,用另一台服务器远程连接1.将hadoop01上的hive发送到hadoop02服务器上:scp -r /opt/hive/ hadoop02:/opt2.在hadoop01下启动hive:c...原创 2020-03-22 12:40:07 · 572 阅读 · 0 评论 -
hive的安装与配置
1.安装mysql2.上传hive包到/opt下,并解压链接:百度网盘提取码:ioqqtar -zxvf hive-1.2.1.tar.gz3.配置hive-env.shcd /opt/hive/confcp hive-env.sh.template hive-env.shvim hive-env.sh4.配置hive-site.xml<configuration&...原创 2020-03-22 00:18:46 · 148 阅读 · 0 评论