hive
sdut菜鸟
我得21个C币呢???
展开
-
【Hive笔记】8.3——Hive主流文件存储格式对比实验
每种存储格式都有自己的用处,这里从存储文件的压缩比和查询速度两个方面对比存储文件压缩比测试测试数据为18.1M的日志文件。TextFile(1) 创建表,存储格式为TextFilecreate table log_text (track_time string,url string,session_id string,referer string,ip string,en...原创 2019-10-14 22:26:41 · 237 阅读 · 0 评论 -
【Hive笔记】8.2——文件存储格式
前言在hive中支持的存储数数据格式主要有:TEXTFILE,SEQUENCEFILE,ORC,PARQUET。列式存储和行式存储在当今的数据处理大致可分为两大类,联机事务处理OLTP(on-line-transaction processing)和联机分析处理OLAP(on-line Analytical processing)OLTP是传统关系型数据库的主要 应用,用来执行 一些基本的...原创 2019-10-09 22:34:43 · 197 阅读 · 0 评论 -
【Hive笔记】8.1——压缩和存储
前言hadoop是支持好几种格式的数据压缩,不同的压缩格式具有不同的压缩比和解压比。MR支持的压缩编码压缩格式工具算法文件扩展名是否可切分DEFAULT无DEFAULT.default否GzipgzipDEFAULT.gz否bzip2bzip2bzip2.bz2是LZOlzopLZO.lzo是Snappy无...原创 2019-09-26 22:03:48 · 159 阅读 · 0 评论 -
【Hive笔记】3—Hive数据类型
3.1 基本数据类型对于hive的String类型相当于数据库的varchar类型,该类型是一个可变的字符串,不过它不能声明其中最多能存储多少个字符,理论上它可以存储2GB的字符数。Hive数据类型Java数据类型长度举例TINYINTbyte1byte有符号整数40SMALINTshort2byte有符号整数40INTint4byte有符号...原创 2019-09-24 20:31:12 · 237 阅读 · 0 评论 -
【Hive笔记】1——Hive入门
1. 什么是Hivehive是由Facebook开源用于解决海量结构化日志的数据统计Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供sql查询功能。本质:将HQL转化为Mapreduce程序Hive处理的数据存储在HDFS,HIve分析数据底层的实现是Mapreduce,执行程序运行在Yarn上2. Hive的优缺点优点:操作接口采用类sq...原创 2019-09-24 17:40:46 · 438 阅读 · 0 评论 -
【Hive笔记】4.1——数据库的增删改查
简介在hive中有数据库和数据表的概念,其实和传统数据库的概念是一样的。但是在hive中不管创建的是数据库还是数据表都是文件夹。一. 创建数据库创建数据库,数据在HDFS上的默认存储路径是/user/hive/warehouse/*.db .create database db_name;避免要创建的数据库已经存在,所以增加if not exists判断(标准写法)creat...原创 2019-08-05 17:25:29 · 490 阅读 · 0 评论 -
【Hive笔记】4.2——数据表的创建和增删改
简介hive对于数据表的创建语句是很复杂的。创建表建表语句CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_comment] [PARTITIONED BY (col_name data_type [...原创 2019-08-13 17:09:33 · 369 阅读 · 0 评论 -
【Hive笔记】4.3——分区表
简介分区表实际是对应一个HDFS文件系统上的独立的文件,该文件夹下是该分区所有的数据文件。Hive中的分区就是分目录,把一个大的数据集根据业务需要分割成小的数据集。在查询时通过WHERE子句中的表达式选择查询所需要的指定的分区,这样的查询效率会提高很多。分区表的基本操作...原创 2019-08-21 14:51:59 · 365 阅读 · 0 评论 -
【Hive笔记】5.1——DML数据操作之数据导入
向表中装载数据(Load)语法:load data [local] inpath 'XXXX' [overwrite] into table tb_name [partition (partcol1=val1,…)];(1) load data:表示加载数据(2)local :表示从本地加载数据到hive表;否则从HDFS加载数据到Hive表(3)inpath:表示加载数据的路径(4)...原创 2019-08-21 20:09:36 · 265 阅读 · 0 评论 -
【Hive笔记】5.2——DML数据操作之数据导出
Insert导出查询结果导出到本地:insert overwrite local directory '/home/lzx/tmpfile/student5' select * from student5;student5是分区表,这里必须使用 overwrite将查询的结果格式化导出到本地:insert overwrite local directory '/home/lzx/tmpf...原创 2019-08-22 20:50:43 · 140 阅读 · 0 评论 -
【Hive笔记】6——Hive查询,分桶,常用函数,窗口函数
查询语句语法SELECT [ALL | DISTINCT] select_expr, select_expr,... FROM table_reference [WHERE where_condition] [GROUP BY col_list] [ORDER BY col_list][CLUSTER BY col_list| [DISTRIBUTE BY col_list] [S...原创 2019-09-13 16:17:42 · 2778 阅读 · 0 评论 -
【Hive笔记】练习hive操作
1.使用hive统计出每个用户的累积访问次数数据准备:userIdvisitDatevisitCountu012017/1/215u022017/1/236u032017/1/228u042017/1/203u012017/1/236u012017/1/218u022017/1/236u012017/...原创 2019-09-19 17:25:57 · 693 阅读 · 0 评论