dengjieyun1598-CSDN博客

转载 load data inpath出错原因及解决方法

hive> load data inpath "hdfs://Master.hdp:9000/person.txt" into table Person1; FAILED: SemanticException [Error 10028]: Line 1:17 Path is not legal '"hdfs://Master.hdp:9...

2017-08-25 14:09:00 1849

转载 Spark SQL

1.1. Spark SQL概述 1.1.1. 什么是Spark SQL Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。 1.1.2. 为什么要学习Spark SQL 我们已经学习了Hive，它是将Hive SQL转换成MapReduce然后提交到集群上执行，大大简化了编写...

2017-08-25 11:42:00 118

转载 RDD的缓存，依赖，spark提交任务流程

1.RDD的缓存 Spark速度非常快的原因之一，就是在不同操作中可以在内存中持久化或缓存个数据集。当持久化某个RDD后，每一个节点都将把计算的分片结果保存在内存中，并在对此RDD或衍生出的RDD进行的其他动作中重用。这使得后续的动作变得更加迅速。RDD相关的持久化和缓存，是Spark最重要的特征之一。可以说，缓存是Spark构建迭代式算法和快速交互式查询的关键。 RDD缓存方式 ...

2017-08-25 10:56:00 105

转载 Spark的wordcount程序产生多少个RDD？

val rdd = sc.textFile("hdfs://Master.hdp:9000/wc").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).sortBy(_._2,false).collectrdd.saveAsTextFile("hdfs://Master.hdp:9000/out01") 思考：在spark的wo...

2017-08-24 20:24:00 229

转载 Spark shell超时

WARN netty.NettyRpcEndpointRef: Error sending message [message = RemoveExecutor(1,Command exited with code 1)] in 1 attempts org.apache.spark.rpc.RpcTimeoutException: Futures timed out after ...

2017-08-23 20:11:00 357

转载 kafka

通过该命令查看kafka的分区，leader情况，在配置时，broker.id有0，1，2，该topic的leader是id为1的服务器，leader是动态选取，通过依赖zookeeper 转载于:https://www.cnblogs.com/Khaleesi-yu/p/7406400.html...

2017-08-21 20:14:00 113

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人