spark
Yano阳
这个作者很懒,什么都没留下…
展开
-
hive on spark 动态解决小文件太多的办法
在做项目时,有个ETL需要处理,数据都在HIVE里面,需要对数据进行统计分析转换。开始直接用的HIVE的JDBC,效率不高。后来想到用hive on spark的方式处理。底层不再使用MapReduce进行计算,避免shuffle引起的大量读写硬盘和rpc网络拷贝带来的性能底下问题,程序效率有了明显提高。但是随之而来的是用sparksql往hive表中插入数据时,会产生很多小文件。用hive时,可以原创 2017-11-27 15:58:01 · 18469 阅读 · 7 评论 -
spark-submit 传递系统变量 或 自定义属性 的方法
现有Spark任务需要配置一些系统变量(注:并非环境变量)。 在程序中可以通过在代码中进行配置:System.setProperty("prop", "value");但是如果一些实际的生产环境,改动代码的话涉及到重新的测试和部署上线。这样就很麻烦了。 java普通程序可以通过 java -Dprop=value的参数来设置。 hadoop的MapReduce程序也可以通过用To...原创 2018-07-24 15:45:14 · 10098 阅读 · 0 评论 -
Spark SQL java.lang.StackOverflowError 异常处理
前言之前写了一个hive业务数据ETL后导出的程序,通过通过SparkSQL实现的,当时的需求是每天导出前一天的数据。数据在hive中是有年月日分区的,为了提高效率,所以我在where条件里面每天动态生成了需要的分区条件。一直运行都没什么问题。最近需要一次导出一年的数据,我就在担心这下动态生成的分区条件肯定特别长。哈哈,果然,程序一跑在spark解析SQL的时候就报错了,错误如下:Exce...原创 2018-08-31 10:51:03 · 8308 阅读 · 2 评论 -
Spark运行任务 文件 /etc/hadoop/conf.cloudera.yarn/topology.py 报错解决
执行Spark任务的时候,之前一直运行正常,突然就报错了。不知道原因,开始先从程序日志排查解决。看日志在调用一个python脚本是发生了错误,ExitCodeExceptionexitCode=1:File"/etc/hadoop/conf.cloudera.yarn/topology.py",line43printdefault_rack从错误上看感觉...原创 2019-04-22 14:35:16 · 4191 阅读 · 1 评论