自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

转载 load data inpath出错原因及解决方法

hive> load data inpath "hdfs://Master.hdp:9000/person.txt" into table Person1; FAILED: SemanticException [Error 10028]: Line 1:17 Path is not legal '"hdfs://Master.hdp:9...

2017-08-25 14:09:00 1842

转载 Spark SQL

1.1. Spark SQL概述 1.1.1. 什么是Spark SQL Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。 1.1.2. 为什么要学习Spark SQL 我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写...

2017-08-25 11:42:00 115

转载 RDD的缓存,依赖,spark提交任务流程

1.RDD的缓存 Spark速度非常快的原因之一,就是在不同操作中可以在内存中持久化或缓存个数据集。当持久化某个RDD后,每一个节点都将把计算的分片结果保存在内存中,并在对此RDD或衍生出的RDD进行的其他动作中重用。这使得后续的动作变得更加迅速。RDD相关的持久化和缓存,是Spark最重要的特征之一。可以说,缓存是Spark构建迭代式算法和快速交互式查询的关键。 RDD缓存方式 ...

2017-08-25 10:56:00 102

转载 Spark的wordcount程序产生多少个RDD?

val rdd = sc.textFile("hdfs://Master.hdp:9000/wc").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).sortBy(_._2,false).collectrdd.saveAsTextFile("hdfs://Master.hdp:9000/out01") 思考:在spark的wo...

2017-08-24 20:24:00 224

转载 Spark shell超时

WARN netty.NettyRpcEndpointRef: Error sending message [message = RemoveExecutor(1,Command exited with code 1)] in 1 attempts org.apache.spark.rpc.RpcTimeoutException: Futures timed out after ...

2017-08-23 20:11:00 355

转载 kafka

通过该命令查看kafka的分区,leader情况,在配置时,broker.id有0,1,2,该topic的leader是id为1的服务器,leader是动态选取,通过依赖zookeeper 转载于:https://www.cnblogs.com/Khaleesi-yu/p/7406400.html...

2017-08-21 20:14:00 108

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除