hadoop
文章平均质量分 52
wang972779876
这个作者很懒,什么都没留下…
展开
-
spark读写文件修改换行符
spark修改换行符、hadoop inputformat原创 2022-04-24 10:15:37 · 2232 阅读 · 0 评论 -
数据倾斜问题处理-转载
看到一篇问题处理数据倾斜的,做下备份,基本都是比较常用的方法,启用倾斜连接优化的方法是之前没有使用过的,以后出现数据倾斜的问题尝试下效果。 原文地址:实操 : Hive 数据倾斜问题定位排查及解决 多数介绍数据倾斜的文章都是以大篇幅的理论为主,并没有给出具体的数据倾斜案例。当工作中遇到了倾斜问题,这些理论很难直接应用,导致我们面对倾斜时还是不知所措。 今天我们不扯大篇理论,直接以例子来实践,排查是否出现了数据倾斜,具体是哪段代码导致的倾斜,怎么解决这段代码的倾斜。 当执行过程中任务卡在 99%,转载 2021-10-29 11:40:16 · 242 阅读 · 0 评论 -
hive 读取sparksql的orc文件报ArrayIndexOutOfBoundsException:6
报错日志如下 可以看出报错的地方再OrcFile的WriterVersion的from方法,定位代码发生在下面代码的values[val]代码段。values的值从代码可以看出values的数据应该为5,见下图代码 而传过来的val是6,向上看代码,version来源是文件的meta,应该是spark版本的原因导致hive不支持的version。 解决 修改OrcFile文件的WriterVersion的内部类的from方法: public static WriterVersio原创 2021-10-28 17:13:07 · 1793 阅读 · 0 评论 -
apache hadoop 升级
hadoop版本apache:2.7.7->2.9.2 hadoop集群为非高可用集群 1.创建镜像回滚:hdfs dfsadmin -rollingUpgrade prepare 2.hdfs dfsadmin -rollingUpgrade query查看镜像回滚状态,直到显示Proceed with rolling upgrade状态 3.下载并解压hadoop-2.9.2 4.将hdfs-site.xml、core-site.xml 、yarn-site.xml拷贝到hadoop-.原创 2021-10-12 09:40:56 · 290 阅读 · 0 评论 -
datax 自定义transformer
datax 自带的transformer :原创 2021-05-31 14:30:31 · 1455 阅读 · 1 评论 -
hdfs 客户端超时时间设置
问题:使用java连接hdfs当输入错误时,都需要等待很长时候或者停止程序,有没有什么办法设置我们的等待时间,客户端的超时连接有那些参数决定 参考:https://blog.csdn.net/zhanglong_4444/article/details/99471338 解决hdfs的超时连接有两个参数决定:ipc.client.connect.max.retries.on.timeouts 和ipc.client.connect.timeout两个参数决定第一个是尝试次数,第二个是超时的时间,也就是说原创 2021-05-18 17:40:56 · 3227 阅读 · 0 评论 -
多线程创建FileSystem,当close时导致其他的FileSystem关闭
问题1:当我们使用FileSystem.get(conf)时会创建几个实例 针对这个问题我们进行代码测试 import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import java.io.IOException; import java.util.List; public class ThreadTest extends Thread{ private FileSystem原创 2021-05-18 16:12:13 · 792 阅读 · 0 评论