![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hive
文章平均质量分 79
꧁꫞ND꫞꧂
每一天都值得期待与认证对待
展开
-
大数据中的小文件问题
文件储存在硬盘上,硬盘的最小存储单位叫做"扇区"(Sector)。每个扇区储存512字节(相当于0.5KB)。 操作系统读取硬盘的时候,不会一个个扇区地读取,这样效率太低,而是一次性连续读取多个扇区,即一次性读取一个"块"(block)。这种由多个扇区组成的"块",是文件存取的最小单位。"块"的大小,最常见的是4KB,即连续八个 sector组成一个 block。文件数据都储存在"块"中,那么很显然,我们还必须找到一个地方储存文件的元信息,比如文件的创建者、文件的创建日期、文件的大小等等。...原创 2022-07-26 10:59:49 · 1072 阅读 · 0 评论 -
常用SQL总结
1.时间函数当前日期select current_date();2022-06-26当前日期-加select date_add(current_date(),1);2022-06-27当前日期-减select date_sub(current_date(),1);2022-06-25指定日期-加select date_add('2022-06-06',1);2022-06-07当前日期-自定义格式select date_format(current_date(),'yyyyMMdd');20220626当前原创 2022-07-01 16:45:59 · 726 阅读 · 0 评论 -
Hivesql 一维表转为二维表
一个表里的两个字端,一个机型,一个周,要展示成每周的top10 机型,用一个SQL实现原始数据显示:jx 周 销量 iphone ww1 11 iphone ww1 22 iphone ww2 34 huawei ww1 21 huawei ww1 1 huawei ww2 33 然后我们需要做些处理,展示成如下select jx,sum(case when week=2021..原创 2021-09-16 21:30:31 · 623 阅读 · 1 评论 -
Group by后使用rollup
一、如何理解group by后带rollup子句所产生的效果group by后带rollup子句的功能可以理解为:先按一定的规则产生多种分组,然后按各种分组统计数据(至于统计出的数据是求和还是最大值还是平均值等这就取决于SELECT后的聚合函数)。因此要搞懂group by后带rollup子句的用法主要是搞懂它是如何按一定的规则产生多种分组的。另group by后带rollup子句所返回的结果集,可以理解为各个分组所产生的结果集的并集且没有去掉重复数据。下面举例说明:1、对比没有带rollup的go转载 2021-08-26 17:10:43 · 4777 阅读 · 0 评论 -
剖析数据倾斜
数据倾斜问题剖析数据倾斜是分布式系统不可避免的问题,任何分布式系统都有几率发生数据倾斜,但有些小伙伴在平时工作中感知不是很明显。这里要注意本篇文章的标题—“千亿级数据”,为什么说千亿级,因为如果一个任务的数据量只有几百万,它即使发生了数据倾斜,所有数据都跑到一台机器去执行,对于几百万的数据量,一台机器执行起来还是毫无压力的,这时数据倾斜对我们感知不大,只有数据达到一个量级时,一台机器应付不了这么多数据,这时如果发生数据倾斜,最后就很难算出结果。所以就需要我们对数据倾斜的问题进行优化,尽量避免或减轻数转载 2021-08-18 14:19:13 · 204 阅读 · 0 评论 -
Hive SQL常用的函数记录
日期函数获取当前日期是第几周:from_unixtime(unix_timestamp('20210909','yyyyMMdd'), 'ww');下面这种方式获取周,会少了一周:weekofyear(from_unixtime(unix_timestamp(cast('20210809' as string),'yyyyMMdd'),'yyyy-MM-dd')) ;日期范围当前月的第一天到最后一天:and a.day >=date_format(DATE_SUB(FROM_UNIXTI原创 2021-08-09 10:35:09 · 774 阅读 · 0 评论 -
Hive配置文件中配置项的含义详解
这里面列出了hive几乎所有的配置项,下面问题只是说出了几种配置项目的作用。更多内容,可以查看内容问题导读:1.hive输出格式的配置项是哪个?2.hive被各种语言调用如何配置?3.hive提交作业是在hive中还是hadoop中?4.一个查询的最后一个map/reduce任务输出是否被压缩的标志,通过哪个配置项?5.当用户自定义了UDF或者SerDe,这些插件的jar都要放到这个目录下,通过那个配置项?6.每个reducer的大小,默认是1G,输入文件如果是10G,那么就会起10个redu原创 2021-02-10 16:45:29 · 945 阅读 · 0 评论