HIVE
斯特凡今天也很帅
这个作者很懒,什么都没留下…
展开
-
Spark综合学习笔记(二十八)SparkSQL整合Hive-2 SparkSQL代码中整合hive
学习致谢https://www.bilibili.com/video/BV1Xz4y1m7cv?p=65代码实现(1)pom文件导入spark-hive依赖<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-hive_2.12</artifactId> <version>2.3.2</version></原创 2021-12-01 17:45:17 · 1109 阅读 · 0 评论 -
Spark综合学习笔记(二十七)SparkSQL整合Hive-1 SparkSQL命令行
学习致谢 [https://www.bilibili.com/video/BV1Xz4y1m7cv?p=64](https://www.bilibili.com/video/BV1Xz4y1m7cv?p=64)HiveOnSpark和SparkOnHive·HiveOnSpark: SparkSql诞生之前的Shark项目使用的,是把Hive的执行引擎换成Spark,剩下的使用Hive的,严重依赖Hive,早就淘汰了没有人用了·SparkOnHive: SparkSQL诞生之后,Spark提出的,是原创 2021-11-30 17:14:58 · 1438 阅读 · 0 评论 -
使用Java编写Spark Streaming来做大数据处理(三)
本文主要内容为:通过spark提取hive中的数据先说一下主要的需求:从数据库种取姓名和编号,如果num为111,或者222,那编号为id,如果id为5为去除前两位,如果id为3位直接用;如果num不等于111,或者222那么编号取id,返回结果name_bianhao(1)准备SparkSession session = SparkConfig.Instance();Encoder<String> stringEncoder = Encoders.STRING();JavaSp原创 2021-08-26 18:14:12 · 210 阅读 · 0 评论 -
使用group by 去重
distinct去重select count(distinct(column1)) from 表名 where column3=20210611;group by去重select column1, count(1)from 表名 where column3=20210611group by column1;原创 2021-06-16 17:31:52 · 4555 阅读 · 0 评论 -
在高可用的集群(三台虚拟机中)配置hive
metastore database<configuration> <property> <name>javax.jdo.option.ConnectionURL</name> <value>jdbc:mysql://nodefive/hive?createDatabaseIfNotExist=true</value> </property> <property> <原创 2021-01-14 22:31:05 · 454 阅读 · 0 评论 -
《Hive》小节测评
1.Hive的内部表和外部表的区别是什么?(1)外部表只删除元数据,不删除实际数据,可得5分(2)内部表都删掉即可,可得5分2.Hive分区表的作用?静态分区和静态分区的区别是什么?(1)分区表实际上就是对应一个HDFS文件系统上的独立的文件夹,大意正确即可得4分(2)动态分区在插入数据时,不指定具体的分区列值,而是仅仅指定分区字段,大意正确可得6分3.Order by,sort by,distribute by,cluster by的区别是什么?(1)order by:全局有序,只有一个re原创 2020-12-23 16:55:00 · 122 阅读 · 0 评论 -
Hive查询题(上)
《Hive高级查询》作业答案一、每个店铺top3(分组求topN)有50w个京东店铺,每个顾客访问任何一个店铺的任何一个商品时,都会产生一条访问日志,访问日志存储的表名为visit,访客用户id为user_id,被访问的店铺名称为shop。请统计:数据:u1 au2 bu1 bu1 au3 cu4 bu1 au2 cu5 bu4 bu6 cu2 cu1 au2 au2 au3 au5 au5 au5 a需求:1.每个店铺UV(访客数)2.每个店铺访问次数t原创 2020-12-14 22:37:32 · 665 阅读 · 0 评论 -
安装zeppelin
Apache Zeppelin是一个让交互式数据分析变得可行的基于网页的开源框架。Zeppelin提供了数据分析、数据可视化等功能。Zeppelin 是一个提供交互数据分析且基于Web的笔记本。方便你做出可数据驱动的、可交互且可协作的精美文档,并且支持多种语言,包括 Scala(使用 Apache Spark)、Python(Apache Spark)、SparkSQL、 Hive、 Markdown、Shell等等。一、下载文件http://zeppelin.apache.org/downloa原创 2020-12-12 23:56:26 · 205 阅读 · 0 评论 -
Hadoop专栏(十三)HIVE详解 下
一、Hive操作-交互模式检查Hive服务是否已经启动使用Hive交互方式(输入hive即可)使用beeline需启动hiveserver2服务nohup hive --service metastore &(非必须)nohup hive --service hiveserver2 &输入beeline进入beeline交互模式!connect jdbc:hive2://hadoop101:10000二、Hive数据类型——基本数据类型类似于SQL的数据类型Hiv原创 2020-12-10 10:34:52 · 301 阅读 · 0 评论 -
HIVE代码特辑
– 创建一个外部表create external table if not exists employee_external(name string,work_place array<string>,sex_age struct<sex:string,age:int>,skills_score map<string,int>,depart_title map<string,array<string>>)row format deli原创 2020-12-09 14:17:50 · 335 阅读 · 0 评论 -
Hadoop专栏(十二)——HIVE详解 上
10、验证元数据是否可用在hive客户端中,进行如下操作 hive> show databases;OKdefaultTime taken: 8.651 seconds, Fetched: 1 row(s)如上所示,表示配置成功,进入mysql中,可以查看有hive数据库,其中存储着hive的元数据信息:图 mysql中的hive元数据1.3常见问题及解决如果在验证查看时出现以下报错:hive> show databases;FAILED: SemanticExcepti原创 2020-12-09 11:39:11 · 310 阅读 · 0 评论 -
建表并导入数据集dat文件
建表CREATE TABLE movies (MovieID INTEGER NOT NULL AUTO_INCREMENT, Title varchar(255) NOT NULL, Genres varchar(255) NOT NULL, PRIMARY KEY (MovieID) ); CREATE TABLE movie_preferences (UserID INTEGER NOT NULL, MovieID INTEGER NOT NULL,原创 2020-11-17 14:58:59 · 634 阅读 · 0 评论 -
初始HIVE(2)——数据类型和数据库操作
Data Type——Primitive Type原创 2020-10-15 12:05:45 · 213 阅读 · 0 评论 -
初识HIVE(1)
一、数据仓库etl,hadoop,开源代码二、HIVE的优势和特点支持运行在不同计算平台支持在HDFS和HBase的分布式查询系统支持用户定义的函数,scripts,定制格式JDBC和ODBC驱动稳定和可靠(生产环境使用)有一个很大开源社区三、HIVE vs MapReduce-----Word Count--Define metadata for the sourceCREATE EXTERNAL TABLE lines(line STRING);LOAD DATA INPATH原创 2020-10-13 12:02:52 · 102 阅读 · 0 评论