Hive
Hive
风流 少年
我走的很慢,但从不后退!
展开
-
Hive JDBC
一:启动Hadoop 1. core-site.xml 配置代理用户属性 特别注意:hadoop.proxyuser.<服务器用户名>.hosts 和 hadoop.proxyuser.<服务器用户名>.groups这两个属性,服务器用户名是hadoop所在的机器的登录的名字,根据自己实际的登录名来配置。这里我的电脑用户名为mengday。 <?xml version...原创 2020-02-03 23:07:35 · 2257 阅读 · 0 评论 -
Hive分桶表
一:简介 分桶规则:对分桶字段值进行哈希,哈希值除以桶的个数求余,余数决定了该条记录在哪个桶中,也就是余数相同的在一个桶中。 分桶语法:创建表时使用clustered子句指定要分桶的字段和分桶的数量,也可以指定排序。 clustered by(字段名) sorted by (排序字段) into 数量 buckets 二:示例 1. 创建分桶表 create table tbl_bucket(...原创 2020-02-17 14:20:55 · 961 阅读 · 0 评论 -
Hive分区表
一:简介 分区表就是根据指定字段的值进行分类、分组,字段值相同的分为一类然后存储在一个单独的HDFS文件中,多个类就存储在多个文件中。原本存储在一个文件中的数据现在存储在多个文件中,查询数据时只需要知道数据在哪个类别中然后直接去对应类对应的文件中去查询就好,这样只需扫描这一个类别的文件而不需要扫描所有文件,这样提高了查询效率。 分区表就是对文件进行水平分割,对数据分门别类的分开存储。 分区表有两种...原创 2020-02-16 12:07:53 · 544 阅读 · 0 评论 -
Hive内部表和外部表
一:内部表和外部表的区别 创建表时使用关键字external创建的表就是外部表,没有使用该关键字创建的表就是内部表。 删除表时(drop table)内部表会删除hdfs对应路径,而外部表不会删除hdfs对应的路径, 删除表无论是内部表和外部表都会删除元数据(metastore.TBLS、metastore.COLUMNS_V2) location关键字:用于指定hdfs路径,如果不指定则使用默...原创 2020-02-16 13:54:32 · 591 阅读 · 0 评论 -
Hive SQL
一:Hive数据类型 基础数据类型:boolean、tinyint、smallint、int、bigint、float、double、deicimal、String(字符串,不需要指定字符串长度)、varchar(需要指定字符串长度)、char、binary(字节数组)、timestamp(时间戳,纳秒精度)、date(日期YYYY-MM-DD) 复合数据类型: array:可通过下标获取指定...原创 2020-02-02 22:56:21 · 543 阅读 · 0 评论 -
Hive WordCount
1. 启动metastore服务 ./hive --service metastore & 2. 建表 创建一个行表,用于存储foobar.txt文件中的每行句子。 create table tbl_line(line string) row format delimited fields terminated by '\n'; 3. 加载数据 将文件数据加载到hive表中。 l...原创 2020-02-15 11:39:36 · 302 阅读 · 0 评论 -
Mac安装Hive
1. 安装 安装Hive之前先要安装Hadoop,请参考 Mac Hadoop安装 brew install hive 2. 配置环境变量 export HIVE_HOME=/usr/local/Cellar/hive/3.1.2 export PATH=$HIVE_HOME/bin:$PATH 3. 在命令行中输入hive命令 在命令行中输入hive直接回车,正常情况下会出现hive >...原创 2020-02-01 22:58:14 · 4167 阅读 · 0 评论