工作
weixin_43454942
这个作者很懒,什么都没留下…
展开
-
Sqoop
Sqoop优化 参考这个https://blog.csdn.net/u010185220/article/details/79085119 出现的问题,map数设置默认128M一个为宜,n个map就会产生n+1个数据块,所以设置过多好像也不太好哦,不过这也不算小文件,没有影响(我猜的嘻嘻) 如何判断读取的数据是否完整?可以采用 也可以使用count * 计算是否行数一样 为什么多个map之后会有...转载 2019-02-28 17:04:10 · 452 阅读 · 0 评论 -
hive优化
压缩之后的文件可以直接load到hive中去 查看系统压缩方式的命令 Hadoop checknative 为false的说明没有安装 实操过程中发现,当系统的某一资源繁忙时,之前的处理速度和实际处理速度会相差很大,而且调整一些参数也并没有特别明显的效果。 系统整体运行很吃资源的时候,采取以下几个方案: 表格修改为orc格式,不但减少空间同时增加查询速度 在orc格式的基础上可以开启矢量化...原创 2019-03-14 09:35:16 · 84 阅读 · 0 评论 -
spark还有hive调优
提交的种类有很多种,spark sql 、submit等等,不过都是分配资源方面的,可以再去了解一下 提交这个任务的话默认并行度是200,就是说reduce会产生200个文件,这会产生大量的小文件问题,–设置spark并行度为1,解决小文件过多问题 set spark.sql.shuffle.partitions=1,但是大多数情况下如果数据量过大的话,还要提高并行度的,所以这里是个奇葩。 当初...原创 2019-03-07 11:02:01 · 154 阅读 · 0 评论 -
mysql中判断某一条数据是否存在
SELECT IFNULL((SELECT ‘Y’ from yimei.boy where grade = 54 limit 1),‘N’),mysql中用ifnull,hive中可以用isnull,这个用来替代case when count(*) > 0 then ‘Y’ else ‘N’ end ,这种会采用聚合索引查询,浪费内存,但是上面那个不会,同时limit1限制了只要查询到一...原创 2019-04-25 10:44:20 · 26738 阅读 · 0 评论 -
动态挂在分区脚本
#/usr/bin/env python2.7 -- coding: utf-8 -- import os import string import datetime from pyspark.sql.types import * from pyspark.sql import SparkSession os.environ[‘PYSPARK_PYTHON’]=’/appcom/service/p...原创 2019-07-19 10:10:42 · 100 阅读 · 0 评论 -
hive中导入文件小文件问题
问题描述: 参考https://www.iteblog.com/archives/1533.html 一个表里面每个分区又300个小文件,小文件数量太多,就想把文件导入一个新表每个分区一个文件,这样就是只有map的任务 第一种方式: SET hive.exec.dynamic.partition=true; SET hive.exec.dynamic.partition.mode=nonstric...原创 2019-07-17 18:10:11 · 284 阅读 · 0 评论