![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hive
功夫猫熊yeah
吃瓜群众
展开
-
hive读取orc表,列为null,解决方案
in case of orc data reader schema passed by hive are all small cases and ifthe column name stored in the file has any uppercase, it will return nullvalues for those columns even if the data is pres...原创 2019-12-23 19:14:00 · 3324 阅读 · 2 评论 -
避免 SQL 反模式
避免 SQL 反模式以下最佳做法提供了相关指导,说明如何避免在 BigQuery 中使用会影响性能的查询反模式。自联接最佳做法:避免使用自联接,请改用窗口函数。通常情况下,自联接用于计算依赖于行的关系。如果使用自联接,则可能导致输出行数翻倍。输出数据的增加可能会导致性能变差。如果不使用自联接,而使用窗口(解析)函数,则可以减少查询生成的额外字节数。数据倾斜最佳做法:如果您的查询处理的...原创 2019-09-05 19:43:14 · 152 阅读 · 0 评论 -
十亿级表和亿级表join不动的解决方案
在开发中遇到问题表t_dmp_idfa_bundle_country_array_middle_tbl (后面简称表1)一个分区的数据量是40亿临时表t_ifa_tbl (后面简称表2)数据量3亿条数据表1 left join 表2 ,直接就挂掉了错误一般是类似于如下的错误BlockManagerMasterEndpoint: No more replicas available fo...原创 2019-08-21 20:09:31 · 2722 阅读 · 1 评论 -
sparksql通过hash算法使得总体性能提高39%
优化前总任务使用时间:1小时43min=103min优化后,总任务使用时间:1小时20分钟=80min优化的效率提升了,1-80/130=39%性能提高了39%默认不配置 exutors-cores excutor-cores 为4 那么如下配置:那么没利用的cores就只有19*4=76个core,提交的脚本如下:spark-submit --deploy-mode clus...原创 2019-08-23 20:21:42 · 766 阅读 · 0 评论 -
建表HIVE外部表 Text和ORC格式(S3存储)
创建ORC格式的外部表CREATE EXTERNAL TABLE `dmp.tbl1`( `ifa` string, `bundles` array<string>, `countrys` array<string>)ROW FORMAT SERDE 'org.apache.hadoop.hive.ql.io.orc.OrcSerde' STOR...原创 2019-08-03 13:50:42 · 4143 阅读 · 0 评论 -
《深入理解Spark》之通过sample算子找出导致数据倾斜的key(scala版本)
作者:lyzx_in_csdn来源:CSDN原文:https://blog.csdn.net/lyzx_in_csdn/article/details/79948799版权声明:本文为博主原创文章,转载请附上博文链接!原作者为: 具体的文字描述也是原作者写的,但是原作者对代码的实现使用的是java来实现的,一般情况处理spark 使用scala的比较多,所有,有兴趣利用scala进行了相关...原创 2019-08-03 12:44:05 · 398 阅读 · 0 评论 -
insert into语句insert overwrite
insert into 语句insert into table mediabuy_dsp.t_cpi_idfa_bundle_tbl select ifa,bundle from dmp.tbl_0 lateral view explode(bundles) ad as bundleinsert overwrite语句insert overwrite table mediabuy_dsp...原创 2019-08-02 21:05:01 · 8684 阅读 · 0 评论 -
如何发现数据倾斜的key
如何过滤数据倾斜的key如下可以看出来那个key的数量多select ifa,cnt from (select ifa,count(ifa) cnt from dmp.tbl_7 group by ifa) a order by a.cnt desc;然后再处理时候将这几个key去除掉就好了...原创 2019-08-02 20:52:48 · 1362 阅读 · 0 评论 -
elasticsearch数据导入hive
hive数据导入到elasticsearch网上很多教程,但是elasticsearch导入到hive网上查阅了有两种办法,1.创建hive和elasticsearch的映射表,然后利用insert into语句或者insert overwrite 语句导入到另一个hive表中2.就是利用代码来实现今天就介绍下第二种方法把,本文用的spark 来进行elasticsearch to hiv...原创 2019-08-02 20:50:14 · 3031 阅读 · 7 评论 -
insert into overwrite 指定分区
insert into overwrite 指定分区,updatedate 为分区字段INSERT OVERWRITE TABLE test.t_dsp_bid_middle_detail_tblPARTITION (updatedate = '%s')select aa,bb from test.test原创 2019-07-24 20:21:32 · 10804 阅读 · 0 评论 -
hive建立外部表语句
hive外部表和内部表的区别是,内部表将表删除了,数据会跟着删除,外部表删除表以后,数据还在,所以生产上一般使用外部表建表语句如下指定表位置用:在这里插入代码片CREATE EXTERNAL TABLE `mediabuy_dsp.t_dsp_bid_middle_detail_tbl_3`( `app` string, `day` string, `hour` strin...原创 2019-07-24 20:19:11 · 3656 阅读 · 0 评论