hive
文章平均质量分 59
ZhaoYingChao88
学而不思则罔,思而不学则殆!
展开
-
hive location更新&hive元数据表详解
由于HDFS支持的文件格式很多,而建Hive表时候也可以指定各种文件格式,Hive在将HQL解析成MapReduce时候,需要知道去哪里,使用哪种格式去读写HDFS文件,而这些信息就保存在这几张表中。该表保存文件存储的基本信息,如INPUT_FORMAT、OUTPUT_FORMAT、是否压缩等。主要有TBLS、TABLE_PARAMS、TBL_PRIVS,这三张表通过TBL_ID关联。TBLS表中的SD_ID与该表关联,可以获取Hive表的存储信息。hive分为内部表和外部表,两种表修改路径方式不一样。原创 2023-09-11 15:23:46 · 1431 阅读 · 0 评论 -
hive java.net.SocketTimeoutException: Read timed out 问题解
hive原创 2022-10-01 11:26:44 · 5075 阅读 · 0 评论 -
SQL排序之 row_number, rank(), dense_rank()区别
三者的区别如下:rank()排序相同时会重复,总数不变,即会出现1、1、3这样的排序结果; dense_rank()排序相同时会重复,总数会减少,即会出现1、1、2这样的排序结果; row_number()排序相同时不会重复,会根据顺序排序。具体实例建表、插入数据create table rownumber( id varchar(10) not null, name varchar(10) null, age varchar(10) null,原创 2021-08-11 19:42:26 · 10917 阅读 · 1 评论 -
Hive调优技巧汇总
参考:http://blog.csdn.net/beckham008/article/details/23741151?utm_source=tuicool&utm_medium=referral1.设置合理solt数mapred.tasktracker.map.tasks.maximum 每个tasktracker可同时运行的最大map task数,默认值2。原创 2018-01-08 19:38:16 · 5546 阅读 · 0 评论 -
Hive – partition table query failed when stored as parquet
Hive is developed by Facebook to analyze and extract useful information from their huge data but now it is very popular in other organizations too such as Netflix and FINRA.Use-case:Now a days原创 2018-01-08 19:20:54 · 1178 阅读 · 1 评论 -
hive order by,sort by, distribute by, cluster by作用以及用法
1. order by Hive中的order by跟传统的sql语言中的order by作用是一样的,会对查询的结果做一次全局排序,所以说,只有hive的sql中制定了order by所有的数据都会到同一个reducer进行处理(不管有多少map,也不管文件有多少的block只会启动一个reducer)。但是对于大量数据这将会消耗很长的时间去执行。 这里跟传统的sql原创 2018-01-22 20:37:02 · 1837 阅读 · 0 评论 -
Hive调优
在一些特定的业务场景下,使用hive默认的配置对数据进行分析,虽然默认的配置能够实现业务需求,但是分析效率可能会很低。Hive有针对性地对不同的查询进行了优化。在Hive里可以通过修改配置的方式进行优化。 以下,几种方式调优的属性。 1、列裁剪 在通过Hive读取数据的时候,并不是所有的需求都要获取表内的所有的数据。有些只需要读取所有列中的几列,而忽略其他列的的数据。例原创 2018-01-22 20:31:43 · 474 阅读 · 0 评论 -
Hive 索引
hive里的索引是什么? 索引是标准的数据库技术,hive 0.7版本之后支持索引。Hive提供有限的索引功能,这不像传统的关系型数据库那样有“键(key)”的概念,用户可以在某些列上创建索引来加速某些操作,给一个表创建的索引数据被保存在另外的表中。 Hive的索引功能现在还相对较晚,提供的选项还较少。但是,索引被设计为可使用内置的可插拔的java代码来定制,用户可以扩展这个功能来满原创 2018-01-22 19:35:41 · 1137 阅读 · 0 评论 -
Hive 分区 分桶使用
为了对表进行合理的管理以及提高查询效率,Hive可以将表组织成“分区”。 分区是表的部分列的集合,可以为频繁使用的数据建立分区,这样查找分区中的数据时就不需要扫描全表,这对于提高查找效率很有帮助。 分区是一种根据“分区列”(partition column)的值对表进行粗略划分的机制。Hive中的每个分区对应数据库中相应分区列的一个索引,每个分区对应着表下的一个目录,在HD原创 2018-01-22 17:17:33 · 3381 阅读 · 1 评论 -
hive视图
可以先,从MySQL里的视图概念理解入手 视图是由从数据库的基本表中选取出来的数据组成的逻辑窗口,与基本表不同,它是一个虚表。在数据库中,存放的只是视图的定义,而不存放视图包含的数据项,这些项目仍然存放在原来的基本表结构中。 视图可以被定义为多个表的连接,也可以被定义为只有部分列可见,也可为部分行可见。 视图的作用有:原创 2018-01-22 17:25:33 · 1577 阅读 · 0 评论