hive
Studying Zhou
毕业于南京工业大学 现滴滴任职资深数据仓库开发工程师
展开
-
数据仓库如何划分主题域
https://jishuin.proginn.com/p/763bfbd33dfe转载 2021-04-14 19:01:11 · 1113 阅读 · 0 评论 -
Hive UDF整理
转载:https://my.oschina.net/repine/blog/193867字符串函数字符串长度函数:length语法: length(string A)返回值: int说明:返回字符串A的长度举例:hive> select length(‘abcedfg’) from dual;7字符串反转函数:reverse语法: reverse(string A)返回值: string说明:返回字符串A的反转结果举例:hive> select reverse(‘ab转载 2021-03-04 19:35:19 · 180 阅读 · 2 评论 -
用sort_array函数解决collet_list列表排序混乱问题
由collect_list形成的列表经过concat_ws拼接后顺序具有随机性,要保证列表有序只需要在生成列表后使用sort_array函数进行排序即可,示例如下:SELECT memberid, regexp_replace( concat_ws('-', sort_array( collect_list(原创 2021-03-04 19:16:58 · 1014 阅读 · 1 评论 -
拉链表设计
https://blog.csdn.net/weixin_40444678/article/details/81083614原创 2019-11-20 11:22:50 · 210 阅读 · 0 评论 -
hive开窗函数总结
https://blog.csdn.net/Abysscarry/article/details/81408265转载 2019-07-30 17:52:32 · 247 阅读 · 0 评论 -
如何将hive的数据表导出到csv格式的文件中
由于在hive hue web页面上无法全部展示比较大的数据,并且就算导出到excel中也会对服务器产生特别大的压力。所以就需要将hive数据表的数据导出以csv形式的存储!hive -e “select * from dhtest.temp_uv” >> res1.csv将需要的查询数据导出到 res1.csv[hdfs@datanode11 wangchong]$ hive ...原创 2019-06-24 13:43:39 · 5190 阅读 · 0 评论 -
自己设置mapreduce程序的map个数和reduce个数
设置reduce个数(一个reduce生成一个文件)1、如果不指定reduce个数,hive会基于一下两个参数自动计算(1)hive.exec.reducers.bytes.per.reducer这是每个reduce处理的数据量,默认为1G=1000000000(2)hive.exec.reducers.max(每个任务的最大reduce个数,默认1009)reduce个数=min(参数...原创 2019-06-11 20:43:35 · 3140 阅读 · 0 评论 -
从一个经典案例看优化mapred.map.tasks的重要性
我所在公司所使用的生产Hive环境的几个参数配置如下:dfs.block.size=268435456hive.merge.mapredfiles=truehive.merge.mapfiles=truehive.merge.size.per.task=256000000mapred.map.tasks=2因为合并小文件默认为true,而dfs.block.size与hive.merg...原创 2019-06-11 17:12:20 · 2102 阅读 · 0 评论 -
hive中的lateral view 与 explode函数的使用
https://blog.csdn.net/guodong2k/article/details/79459282转载 2019-06-04 15:04:36 · 239 阅读 · 0 评论 -
hive 基本命令
hive 启动 hive>quit; --退出hive hive> exit; --exit会影响之前的使用,所以需要下一句kill掉hadoop的进程 >hadoop job -kill jobidhive>create database database_name; 创建数据库 如果数据库已经存在就会抛出一个错误信息,使用如下语句可以避免抛出错误...转载 2018-12-25 16:46:38 · 293 阅读 · 0 评论 -
数据倾斜解决方案
2018年09月05日 21:43:38 isyslab 阅读数:1103版权声明: https://blog.csdn.net/isyslab/article/details/82431332数据倾斜定义简单的讲,数据倾斜就是我们在数据计算的时候,由于数据的分散度不够,导致大量的数据集中到了一台或者几台机器上计算,这些机器的计算速度远远低于整个集群的平均计算速度,导致整个计算过程十分缓慢。...转载 2019-03-04 11:44:48 · 109 阅读 · 0 评论 -
数据仓库为何要做表分区
为什么做分区分区表将数据组织成分区,主要可以提高数据的查询速度。如果把一年或者一个月的日志文件存放在一个表下,那么数据量会非常的大,当查询这个表中某一天的日志文件的时候,查询速度还非常的慢,这时候可以采用分区表的方式,把这个表根据时间点再划分为小表。这样划分后,查询某一个时间点的日志文件就会快很多,因为这是不需要进行全表扫描。Hive中的分区是根据“分区列”的值对表的数据进行粗略的划分,Hi...原创 2019-03-28 12:02:03 · 1893 阅读 · 0 评论 -
hive表信息查询:查看表结构、表操作等
转自:http://www.aboutyun.com/forum.php?mod=viewthread&tid=8590&highlight=hive问题导读:1.如何查看hive表结构?2.如何查看表结构信息?3.如何查看分区信息?4.哪个命令可以模糊搜索表1.hive模糊搜索表show tables like ‘name’;2.查看表结构信息desc form...转载 2019-05-28 11:00:29 · 5637 阅读 · 0 评论 -
REGEXP_REPLACE 函数
https://blog.csdn.net/gxftry1st/article/details/22489275转载 2019-06-05 15:22:00 · 479 阅读 · 0 评论 -
Hive map和reduce个数的设置
hive优化的几种情况目标就是每个map,reduce数据处理量要适当1.hive小文件很多,造成map个数很多,需要减少map个数set mapred.max.split.size=100000000;set mapred.min.split.size.per.node=100000000;set mapred.min.split.size.per.rack=100000000;se...转载 2019-06-12 14:49:16 · 1066 阅读 · 0 评论 -
Hive中压缩使用详解与性能分析
https://blog.csdn.net/qq_26442553/article/details/85766558转载 2019-06-06 10:53:57 · 386 阅读 · 0 评论 -
大数据:Hive常用参数调优
https://www.cnblogs.com/ITtangtang/p/7683028.html转载 2019-06-06 15:01:28 · 301 阅读 · 0 评论 -
hive原理总结
https://www.cnblogs.com/beiyi888/p/9592490.html转载 2018-12-26 15:58:54 · 183 阅读 · 1 评论