Hive
文章平均质量分 66
amberwest
这个作者很懒,什么都没留下…
展开
-
hive读取索引文件的问题
存在这么一张表,源数据是用LZO压缩并创建了索引drop table if exists ods_customer;create external table ods_customer( customer_id string, customer_name string, gender string, mobile string, birth date)partitioned by (dt string)stored as INPUTFORMAT原创 2021-10-07 19:14:37 · 516 阅读 · 4 评论 -
启动hiveserver2服务
如果想要远程连接hive,需要先启动hiverserver2服务。首先,修改$HIVE_HOME/con/hive-site.xml配置文件,将true改为false: <property> <name>hive.server2.enable.doAs</name> <value>false</value> <description> Setting this property to tr原创 2021-10-07 11:51:23 · 2018 阅读 · 0 评论 -
Hive调优
【注意】所有的配置项写到xml文件,需要更换格式。1、使用explain、explain extendedexplain select count(car_brand) from car; --结果见下图explain extended select count(car_brand) from car;使用explain可以看到Hive是怎么转换成MapReduce任务的。想要更详细的信息可以用explain extended。2、限制调整使用limit语句有时候可以避免整.原创 2021-09-25 12:53:56 · 175 阅读 · 0 评论 -
Hive模式设计
Hive常见的几种模式:1、按天划分的表对于数据增长非常快的业务,就可以应用这种方式。create table supply20210921(id int, part string);--也可以用分区create table supply(id int, part string) partitioned by (day int);alter table supply add partition(day=20210921);2、分区使用分区可以优化一些查询,但是要注.原创 2021-09-25 12:49:46 · 226 阅读 · 0 评论 -
HiveQL:视图
当查询语句变得很长或者很难理解时,比如多层嵌套查询,我们可以用视图来降低查询难度。或者我们不想暴露全部的数据,也可以用视图来代替。但目前Hive不支持物化视图。-- 如果查询语句有确切的字段名,视图名后面的字段列表可省略create view if not exists orders(id, state, city, part ) comment 'select some info from the dynamic table' --可选tblproperties('creator'='amb原创 2021-09-19 22:44:08 · 167 阅读 · 0 评论 -
HiveQL:查询
1、select语句HiveQL一般是用本地模式执行,但涉及到聚合函数之类的就会启动MapReduce任务。可以设置hive.exec.mode.local.auto为true,其他操作也会尽量走本地模式。select id, name from cast;-- 依次获取字符串、集合元素(Array)、Map元素、Struct对象select name, subordinates[0], deductions['State Taxes'], address.city from employe原创 2021-09-19 19:21:22 · 341 阅读 · 0 评论 -
HiveQL:加载、导出数据
1、向管理表中装载数据使用load data的方式往表批量加入(Hive不支持行级别的数据操作),有几点需要注意:local:是从本地文件系统拷贝数据到分布式文件系统上的目标位置,如Hive默认的/user/hive/warehouse/路径下。不带local关键字,是从分布式文件系统上转移到分布式文件系统上的目标位置,如从/home/hadoop到/user/hive/warehouse/,同时要求是在同一个文件系统。 overwrite:会覆盖掉表中原有的数据。不带overwirte关键字,则原创 2021-09-19 11:46:47 · 165 阅读 · 0 评论 -
HiveQL:数据定义
基础Hive不支持记录级别的更新、插入或者删除操作。不支持OLTP(联机事务处理),更接近OLAP(联机分析技术)工具。但由于Hive查询延时严重,需要使用NoSQL,如Hbase或Cassandra。一般使用Hive可以通过CLI(命令行界面,用hive来表示),也可以用图形用户界面,如Karmasphere,Cloudera,Hue和Qubole提供的“Hive即服务”。元数据:Metastore是一个独立的关系型数据库(通常是一个MySQL实例),Hive会在其中保存表模式和其他系统元数据原创 2021-09-18 17:40:23 · 263 阅读 · 0 评论 -
Mac上的Hive安装和配置
懒人安装Hive大法,踩了n多坑...1、安装Hadoop因为Hadoop对伪程序猿(Java学的不够好)不友好,所以通过Hive来启动MapReduce任务,简单好上手。《Hive编程指南》是这么说的:Hive所有命令和查询都会进入Driver(驱动模块),通过该模块对输入进行解析编译,对需求的计算进行优化,然后按照指定的步骤执行(通常是启动多个MapReduce的job来执行)。当需要启动MapReduce任务(job)时,Hive本身是不会生成JavaMapReduce算法程序。相反,.原创 2021-09-17 10:48:04 · 979 阅读 · 0 评论