自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

longyangaaoo的博客

Yano阳 CSDN认证博客专家 CSDN认证企业博客

码龄14年

11: 原创

25万+: 周排名

225万+: 总排名

9万+: 访问

: 等级

935: 积分

16: 粉丝

25: 获赞

21: 评论

61: 收藏

私信

关注

热门文章

分类专栏

发送邮件 1篇
开发环境 3篇
spark 4篇
etl 1篇
java8
HBase 2篇
jvm 1篇
Spring 1篇
CDH 1篇
异常解决 1篇

最新评论

多线程从MongoDB读取数据，并以固定大小写入HDFS
_默 ® 守_: 完整代码能发我一份吗、谢谢大佬邮箱：wings_final@163.com
Spark运行任务文件 /etc/hadoop/conf.cloudera.yarn/topology.py 报错解决
lmw0320: 大佬，我是py3环境。本地安装了pyspark，想连接到服务器上的spark，并尝试对hbase数据库进行查询写入等操作。。我在服务器上，已经测试pyspark环境下可以执行该代码。。但是本地安装好pyspark，却会报错，提示java.io.IOException: Cannot run program "/etc/hadoop/conf.cloudera.yarn/topology.py" (in directory "/home/lmw/deep_learning/python_files"): error=2 没有那个文件或目录。我没明白，这个流程应该是怎样的？本地的pyspark弄好后，还要在本地安装spark 和hadoop的客户端么? hbase呢？另外，如要求本地安装spark和hadoop，要如何配置呢？？我看报错提到的/etc/hadoop/conf.cloudera的文件路径，是在服务器上的。我本地没有这个文件夹啊
Spark SQL java.lang.StackOverflowError 异常处理
Tisfy: 这篇帖子，就好比黑暗中刺裂夜空的闪电
Spark SQL java.lang.StackOverflowError 异常处理
Liannai_: 解决了我的问题，十分感谢！
hive on spark 动态解决小文件太多的办法
fendouderen: 楼主你好,我在用sparksql 处理数据的时候数据量很大我把spark.sql.shuffle.partitions设置成了800 但是在写入到hive的分区表后导致了每个分区里都是800个左右的小文件，小文件太多了，后来我先用repartition()来减少分区了虽然达到了目的但是相应的这个stage的并行度太低，导致很慢有什么好的解决方法吗?我这个作业每天都要使用执行

最新文章

spark

关注

关注数：文章数：4 文章阅读量：41066 文章收藏量：33

作者: Yano阳

这个作者很懒，什么都没留下…

展开