spark
撸码小丑
BUG制造商
展开
-
SparkStreaming创建DirectStream连接kafka时策略详解
SparkKafka直接流(createDirectStream)和kafka分区每个kafka主题分区对应一个RDD分区。spark可以通过spark.streaming.kafka.maxRatePerPartition配置,对每个分区每秒接受的消息树进行控制。LocationStrategies位置策略,控制特定的主题分区在哪个执行器上消费的。在executor针对主题分区如...原创 2019-10-29 09:53:59 · 1110 阅读 · 0 评论 -
看完这篇文章,你就能熟练运用SparkSql
花了几天休息的时间整理了这篇文章,就为了让你读完就能深入了解并熟练运用Spark SQL!如果你觉得有用的话请收藏加关注,你的转发和点赞是我最大的动力!原创不易,转载请注明出处! 本文基于Spark官方网站(spark.apache.org),加上自己的理解和实验编写。文中Demo基于Spark2.4。1、概述Spark SQL是一个用于结构化数据处理的Spark模块。与基本的Sp...原创 2019-01-21 23:17:32 · 619 阅读 · 0 评论 -
Spark算子里面使用JDBC连接Impala的时候报错: ExecuteStatement failed: out of sequence response
Caused by: org.apache.thrift.TApplicationException: ExecuteStatement failed: out of sequence response 到IVE-6893] out of sequence error in HiveMetastore server - ASF JIRAhttps://issues.apache.org/...原创 2018-09-20 10:57:31 · 8586 阅读 · 0 评论 -
spark 调用saveAsTextFile 报错NullPointerException
解决方法:1.http://www.cnblogs.com/likai198981/p/4123233.html 2.http://www.myexception.cn/cloud/1976385.html 3.http://www.tuicool.com/articles/qy2iaai 写了很简单...转载 2018-09-13 09:41:58 · 674 阅读 · 0 评论 -
使用scala开发spark streaming程序消费kafka的数据--wordcount程序
前提:搭建好了zk,kafka集群在kafka中创建一个topic –test2./kafka-topics.sh --create --zookeeper hadoop1:2181 --replication-factor 1 --partitions 3 --topic test2 使用shell产生数据./kafka-console-producer.sh --broker-...原创 2018-05-03 00:20:55 · 2726 阅读 · 0 评论 -
使用scala开发SparkSql程序
依赖 <properties> <maven.compiler.source>1.7</maven.compiler.source> <maven.compiler.target>1.7</maven.compiler.target> <encoding>UTF-8</...原创 2018-05-03 00:08:36 · 4389 阅读 · 0 评论 -
SparkSql入门及简单实例
一 SparkSql简介Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。 什么是DataFrames? 与RDD类似,DataFrame也是一个分布式数据容器。然而DataFrame更像传统数据库的二维表格,除了数据以外,还记录数据的结构信息,即schema。同时,与Hive类似,DataFrame也...原创 2018-05-01 12:20:15 · 2274 阅读 · 0 评论 -
Spark在Hadoop 高可用模式下读写hdfs
第一种,通过配置文件 val sc = new SparkContext() sc.hadoopConfiguration.set("fs.defaultFS", "hdfs://cluster1"); sc.hadoopConfiguration.set("dfs.nameservices", "cluster1"); sc.hadoopConfiguratio...转载 2018-04-30 16:46:39 · 1712 阅读 · 0 评论 -
spark入门程序WordCount
1.依赖和插件<properties> <maven.compiler.source>1.7</maven.compiler.source> <maven.compiler.target>1.7</maven.compiler.target> <encoding>UTF-...原创 2018-04-15 11:08:46 · 211 阅读 · 0 评论 -
Spark安装(高可用版)
前提:安装好了JDK1.下载spark安装包并上传到服务器解压http://www.apache.org/dyn/closer.lua/spark/spark-1.5.2/spark-1.5.2-bin-hadoop2.6.tgztar -zxvf spark-1.5.2-bin-hadoop2.6.tgz -C /usr/local/apps/platform/#创建软链接...原创 2018-04-15 10:54:28 · 348 阅读 · 0 评论