Hive
数据分析师常用的hive
黄饱饱_bao
我喜欢看过世界的男生
展开
-
Hive关于数据库的增删改查
创建库if not exists:防止db_hive已经存在CREATE DATABASE if not exists db_hive;CREATE DATABASE if not exists db_hive COMMENT 'create my database named db_hive';#带注释CREATE DATABASE if not exists db_hive ...原创 2019-08-26 15:14:59 · 396 阅读 · 0 评论 -
Hive关于数据表的增删改(内部表、外部表、分区表、分桶表 & 数据类型、分隔符类型)
建表基本语句格式CREATE [external] TABLE if not exists student #默认建立内部表,加上external则是建立外部表(id int COMMENT'学号',sname string COMMENT'用户名',age int COMMENT'年龄')#字段名称,字段类型,字段描述信息 COMMENT '记录学生学号'#表的描述信息PART...原创 2019-08-26 15:22:35 · 753 阅读 · 0 评论 -
Hive的数据加载与导出
普通表的加载1.load方式load data [local] inpath [源文件路径] into table 目标表名;从HDFS上加载数据,本质上是移动文件所在的路径load data inpath '/user/student.txt' into table student;从本地加载数据,本质上是复制本地的文件到HDFS上load data loca...原创 2019-08-26 15:34:08 · 315 阅读 · 0 评论 -
Hive的查找语法
基本语法格式:select [all | DISTINCT ] a.id, a.sname, a.age from student a join student02 b on a.id = b.id # 匹配函数 where a.age >=18 # 条件语句 group by a.age having a.age >=18 # 分组,having:分组后的筛选条件 ...原创 2019-08-26 15:37:34 · 319 阅读 · 0 评论 -
Hive的视图
创建视图create view my_view as select * from student;注意:hive中的视图仅仅是存储了SQL语句的快捷方式,在查询的时候才执行; hive中的视图只有逻辑视图,没有物化视图; hive中的视图只支持查询,不支持增删改(insert,delete,update) hive中的视图在元数据库中只保存SQL语句,不保存SQL语句的执行结果;...原创 2019-08-26 15:39:42 · 1267 阅读 · 0 评论 -
hive-内置函数(常用内置函数汇总)
show functions; #查看所有内置函数,共271个 show function sum; #查看sum函数的描述信息 show function extended sum; #查看内置函数的描述信息和举例的使用方法举例数据表:stu id name address score c...原创 2019-09-27 20:02:28 · 705 阅读 · 0 评论 -
hive - 自定义函数(超详细步骤,手把手的交)
用Java开发自定义函数,步骤:1.eclipse上新建一个工程project(db2019);2.导jar依赖包:db2019右键 --build path --configure...--add library --user library --new(新建一个library(hive2.3.2_jar))--add external jars(添加jar包) --认...原创 2019-09-27 20:03:37 · 2488 阅读 · 0 评论 -
hive - 解析 json
内置函数:get_json_object(json串,解析路径)解析路径说明:$ :跟对象. :子对象[] :数组下标* :所有举例:数据样例:{"movie":"1190","rate":"4.8","timestamp":"978300760","uid":"145325"}{"movie":"1191","rate":"3.7","timestamp":"...原创 2019-09-27 20:04:22 · 301 阅读 · 0 评论 -
hive - 可优化的 10 个地方及详解
1.合理选择排序排序算法比较耗资源,应根据业务需要选择order by :全局排序,大数据集会消耗太过漫长的时间 sort by:局部排序,只能保证每个reducer的输出数据都是有序的 distribute by:分桶不排序,控制map的输出在reducer中是如何划分的,若需排序,则+sort by[字段] cluster by:分桶且排序2.慎用笛卡尔积与jo...原创 2019-09-27 20:05:42 · 264 阅读 · 0 评论