spark
动物园园长黄华杰
Python开发/大数据开发
展开
-
SparkSQL整合Hive时org.apache.spark.sql.AnalysisException: Table or view not found:
报错信息org.apache.spark.sql.AnalysisException: Table or view not found: 解决方法第一步加配置文件在IDEA中resource目录中添加三个配置文件从(从自己的安装的集群上拷贝下来)第二步代码的配置import org.apache.spark.sql.SparkSessionimport org.apache.sp...原创 2019-10-22 10:18:05 · 1074 阅读 · 1 评论 -
SparkStreaming整合Kafka代码案例1
SparkStreaming整合Kafka代码maven依赖代码import org.apache.kafka.clients.consumer.ConsumerRecordimport org.apache.kafka.common.serialization.StringDeserializerimport org.apache.spark.streaming.dstream.Inpu...原创 2019-10-14 21:49:04 · 219 阅读 · 0 评论 -
Spark入门WordCount案例(Java和scala实现)
import org.apache.spark.SparkConf;import org.apache.spark.SparkContext;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaS...原创 2019-09-25 18:31:29 · 358 阅读 · 1 评论 -
Spark之reduceByKey详解
Spark算子reduceByKey详解reduceByKey与groupByKey不同之处相同之处reduceByKey与groupByKey不同之处reduceByKey,多了一个rdd,MapPartitionsRDD,存在于stage0的,主要是代表了进行本地数据规约之后的rdd,网络传输的数据量,以及磁盘IO等,会减少,性能更高相同之处后面进行shuffle read和聚合的...原创 2019-09-26 18:30:29 · 2254 阅读 · 0 评论 -
Spark实现TopN计算
import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object TopN { def main(args: Array[String]): Unit = { val topN = new SparkConf().setMaster("local[4]").se...原创 2019-09-26 20:06:51 · 1793 阅读 · 0 评论 -
Spark之combineByKey算子
Spark之combineByKeygroupByKey和ReduceByKey均是有combineByKey实现作用调用参数注意点groupByKey和ReduceByKey均是有combineByKey实现作用 对数据集按照 Key 进行聚合调用 combineByKey(createCombiner, mergeValue, mergeCombiners, [part...原创 2019-09-27 10:56:03 · 152 阅读 · 0 评论 -
Spark使用mapPartitions获取分区下的元素
mapPartitions解析底层源码 /** * Return a new RDD by applying a function to each partition of this RDD. * * `preservesPartitioning` indicates whether the input function preserves the partitioner,...原创 2019-09-27 17:09:21 · 621 阅读 · 0 评论 -
Spark自定义分区解决手机号分区
Spark自定义分区解决手机号分区需求: 自定义分区对手机号按前三位进行分区怎么分区而HashPartitioner的实现是通过继承org.apache.spark.Partitioner类,重写了numPartitions和getPartition方法,这样,我们只需要自定义一个类,继承Partitioner类并实现里面的方法就可以完成,代码演示如下测试代码需求: 自定义分区对手机号按前三位进...原创 2019-09-28 19:09:34 · 352 阅读 · 0 评论 -
Spark整合Hive完整流程,欢迎留言讨论
Spark整合Hive整合hive元数据metadataHive 的 MetaStore 是一个 Hive 的组件而 Hive 的 MetaStore 的运行模式有三种Hive开启元数据服务如果没有添加下面这一段,启动spark会报错启动hive元数据服务同时需要加载其他配置,包括HDFS测试整合hive元数据metadataMetaStore, 元数据存储SparkSQL 内置的有一个...原创 2019-10-06 19:01:39 · 607 阅读 · 0 评论