![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hive
Deng_huakai
花开自会落
展开
-
Hive 的发展历程
Hive的产生背景1.MapReduce编程不方便:开发、测试、需求变更。传统关系型数据库人员的需要。Hive文件存放在HDFS之上的,那么如果你想使用SQL去处理它,需要一个前提:结构化、文件映射成表格 => Schema 元数据信息(metastore)。Hive是:data warehouse software (数据仓库软件)hive就是使用SQL对分布式文件系统上的存储的大的...原创 2018-11-20 21:04:18 · 4769 阅读 · 1 评论 -
hive-对用户浏览网站的点击量按年月进行统计
点击量文件统计如下: 统计结果: 实现方法:1.上传Windows上面文件到/home/hadoop/data/xiongmaoTV.txt2.创建xiongmaoTV表,把/home/hadoop/data/xiongmaoTV.txt load 进去3.hive (default)> select * from xiongmaoTV;(确认已经创建好表)熊猫tv 20...原创 2018-12-31 21:28:21 · 2176 阅读 · 1 评论 -
存储格式
文件存储格式hive创建表的时候默认是textfile的文件格式hive.default.fileformat(该参数决定了hive创建表的存储格式)hive (default)> set hive.default.fileformat;hive.default.fileformat=TextFile(默认文本格式)hive (default)> create table t...原创 2018-12-21 11:14:07 · 397 阅读 · 0 评论 -
压缩在hive中的使用
用sqoop将数据从MySQL中以snappy压缩格式导入至hive中hive (default)> create table product_info_snappy as select *from product_info where 1=2; (在hive中创建一张表,结构与 product_info相同 。这张表在MySQL的ruozedata5数据库下面。)[hadoop@ha...原创 2018-12-05 20:15:34 · 264 阅读 · 0 评论 -
Hive -分区表
1.创建一个分区表hive (default)> create table order_partition(orderNumber string,event_time string)PARTITIONED BY(event_month string) row format delimited fields terminated by '\t';2.把TXT文本上传至分区表中hive ...原创 2018-11-21 14:53:39 · 198 阅读 · 0 评论 -
Hive -函数
聚合函数 max min sum avg count (对于这种聚合函数就会运行Map Reduce)hive (default)> select count(1) from ruoze_emp where deptno=10;(查询部门编号为10的人的数量)hive (default)> select max(sal) min(sal) avg(sal) sum...原创 2018-11-21 13:49:56 · 142 阅读 · 0 评论 -
Hive DML
Hive是构建在Hadoop之上的数据仓库DML : Data Manipulation Language (数据管理语言)LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]创建ruoze_dept表crea...原创 2018-11-21 12:10:16 · 139 阅读 · 0 评论 -
Hive DDL-表
Hive构建在Hadoop之上,hive创建表,然后数据是存储在HDFS之上 ,hdfs上面就是普通的文本,它的每个字段是采用分割符进行分割,也就是txt文档,而表里面是对应的信息类别,我们需要把它们进行对应原创 2018-11-21 10:05:27 · 134 阅读 · 0 评论 -
Hive DDL -数据库
DDL全称及简介DDL: Data Definition Language https://cwiki.apache.org/confluence/display/Hive以create delete drop alter关键字开头的。1.Database是HDFS上的一个文件夹,hive默认自带一个default数据库,默认数据库存放位置:/user/hive/warehouse[h...原创 2018-11-21 08:59:46 · 235 阅读 · 0 评论 -
Hive的部署
版本下载下载网站如下:下载、解压、配置环境变量、配置文件的相关参数[hadoop@hadoop001 hadoop]$ cd /home/hadoop/app[hadoop@hadoop001 app]$ wget http://archive-primary.cloudera.com/cdh5/cdh/5/hive-1.1.0-cdh5.7.0.tar.gz[hadoop@hadoo...原创 2018-11-20 21:48:12 · 107 阅读 · 0 评论 -
Windows10-idea通过spark连接hive
步骤分析idea如果想通过spark连接hive,首先pom文件中需要添加hive,除此之外必须要把hive-site.xml放到idea的resources下面。hive-site.xml里面是配置的hive的元数据库地址,hdfs-site.xml、core-cite.xml可以选择是否放进去。Windows系统操作hadoop肯定会出现一个警告。找不到winutils.exe。这个警告一般...原创 2019-01-01 13:02:33 · 3518 阅读 · 0 评论