![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
工作
weixin_43454942
这个作者很懒,什么都没留下…
展开
-
Sqoop
Sqoop优化参考这个https://blog.csdn.net/u010185220/article/details/79085119出现的问题,map数设置默认128M一个为宜,n个map就会产生n+1个数据块,所以设置过多好像也不太好哦,不过这也不算小文件,没有影响(我猜的嘻嘻)如何判断读取的数据是否完整?可以采用也可以使用count * 计算是否行数一样为什么多个map之后会有...转载 2019-02-28 17:04:10 · 457 阅读 · 0 评论 -
hive优化
压缩之后的文件可以直接load到hive中去查看系统压缩方式的命令 Hadoop checknative 为false的说明没有安装实操过程中发现,当系统的某一资源繁忙时,之前的处理速度和实际处理速度会相差很大,而且调整一些参数也并没有特别明显的效果。系统整体运行很吃资源的时候,采取以下几个方案:表格修改为orc格式,不但减少空间同时增加查询速度在orc格式的基础上可以开启矢量化...原创 2019-03-14 09:35:16 · 87 阅读 · 0 评论 -
spark还有hive调优
提交的种类有很多种,spark sql 、submit等等,不过都是分配资源方面的,可以再去了解一下提交这个任务的话默认并行度是200,就是说reduce会产生200个文件,这会产生大量的小文件问题,–设置spark并行度为1,解决小文件过多问题set spark.sql.shuffle.partitions=1,但是大多数情况下如果数据量过大的话,还要提高并行度的,所以这里是个奇葩。当初...原创 2019-03-07 11:02:01 · 157 阅读 · 0 评论 -
mysql中判断某一条数据是否存在
SELECT IFNULL((SELECT ‘Y’ from yimei.boy where grade = 54 limit 1),‘N’),mysql中用ifnull,hive中可以用isnull,这个用来替代case when count(*) > 0 then ‘Y’ else ‘N’ end ,这种会采用聚合索引查询,浪费内存,但是上面那个不会,同时limit1限制了只要查询到一...原创 2019-04-25 10:44:20 · 26758 阅读 · 0 评论 -
动态挂在分区脚本
#/usr/bin/env python2.7-- coding: utf-8 --import osimport stringimport datetimefrom pyspark.sql.types import *from pyspark.sql import SparkSessionos.environ[‘PYSPARK_PYTHON’]=’/appcom/service/p...原创 2019-07-19 10:10:42 · 104 阅读 · 0 评论 -
hive中导入文件小文件问题
问题描述:参考https://www.iteblog.com/archives/1533.html一个表里面每个分区又300个小文件,小文件数量太多,就想把文件导入一个新表每个分区一个文件,这样就是只有map的任务第一种方式:SET hive.exec.dynamic.partition=true;SET hive.exec.dynamic.partition.mode=nonstric...原创 2019-07-17 18:10:11 · 290 阅读 · 0 评论