自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 资源 (1)
  • 收藏
  • 关注

原创 Spark通过YARN-client提交任务不成功

自己用的Spark-1.3.1, 通过YARN Client提交任务访问Kerberos认证的Hadoop集群。发现应用提交后始终出现如下循环提示:15/03/31 09:00:45 INFO yarn.Client: Application report for application_1427763283312_0001 (state: ACCEPTED)15/03/31 09:0

2015-07-23 23:19:35 13128

原创 Spark应用如何访问带Kerberos认证的CDH Hadoop集群

我用的是 Spark Standalone集群,当运行kinit命令导入证书,并把CDH Hadoop集群的配置文件放入spark/conf/目录后,提交应用发现还是无法访问CDH Hadoop。后来查了下官网资料,貌似Standalone模式的Spark集群不支持访问Kerberos认证的Hadoop,我们可以使用Yarn Client模式管理的的Spark集群。假设你的Hadoop集群

2015-07-15 23:09:35 9478 2

原创 如何应对SparkSQL DataFrame保存到hdfs时出现的过多小文件问题

原因就不解释了,总之是因为多线程并行往hdfs写造成的(因为每个DataFrame/RDD分成若干个Partition,这些partition可以被并行处理)。其结果就是一个存下来的文件,其实是hdfs中一个目录,在这个目录下才是众多partition对应的文件,最坏的情况是出现好多size为0的文件。如果确实想避免小文件,可以在save之前把DaraFrame的partition设为0:

2015-07-08 22:40:24 8853

Hadoop快速入门七步走

本文整理了网上搜集的Hadoop资料,共7个文件。学习顺序可以按照命名规则 STEP1__XXX --> STEP6__XXX; STEP7_XXX.pdf可以作为工具书参考。 适合对大数据感兴趣的初学者快速入门。欢迎大家提出宝贵意见或建议。

2018-04-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除