spark
文章平均质量分 80
TracyGao01
保持专注
展开
-
spark-webUI添加权限认证
Spark版本:2.4.0直接上步骤:#1、编写Filter代码```javapackage spark;import org.apache.commons.codec.binary.Base64;import org.apache.commons.lang.StringUtils;import org.slf4j.Logger;import org.slf4j.LoggerFactory;import javax.servlet.*;import javax.servlet..转载 2020-07-24 18:01:10 · 1132 阅读 · 0 评论 -
Spark 2.3.2 PySpark Error: AttributeError: 'DataStreamWriter' object has no attribute 'foreach'
Spark版本:2.3.2遇到的问题:在使用PySpark跑Structured Streaming任务时报错AttributeError: 'DataStreamWriter' object has no attribute 'foreach'备注:Spark Structured Streaming在2.3.2已经支持foreach sink,为什么还会报这个错误呢?h...原创 2020-01-14 17:10:09 · 834 阅读 · 0 评论 -
spark-shell,如何粘贴复制代码方便测试
:paste进入粘贴模式ctrl-D退出粘贴模式执行(大写D)原创 2019-02-27 09:51:35 · 1120 阅读 · 0 评论 -
Spark通过JDBC写Pipelinedb时,无法看到详细异常
报错如下:UnableToExecuteStatementException: Batch entry was aborted. Call getNextException to see the cause切换Postgresql JDBC驱动到最新版本,问题结局原创 2019-05-31 10:45:58 · 480 阅读 · 0 评论 -
spark 写postgresql:org.postgresql.util.PSQLException: ERROR: column "info" is of type jsonb but expre
error:org.postgresql.util.PSQLException: ERROR: column "info" is of type jsonb but expression is of type character varying当写入jsonb类型数据时,报错解决:df.write .format("jdbc") .option("url", "jdbc:postg...原创 2019-06-30 15:56:41 · 6573 阅读 · 1 评论 -
Spark:写数据到PipelineDB建表问题
Spark写数据到PipelineDB遇到问题:由于PipelineDB特殊的建表语句,而Spark JDBC在写数据之前会自动建一张普通的表结构,会出现问题解决:自己在写入数据之前建好PipelineDB的表,同时不让Spark自动建表不让Spark自动建表,这里注掉了一行spark代码,重新编译打包了jar包,替换了环境jar包,修改代码位置如下:注掉了:state...原创 2019-07-31 21:13:19 · 262 阅读 · 0 评论 -
Spark Structured Streaming:窗口聚合
//聚合1小时的数据量 val windowCounts = name.groupBy( window($"create_date", "60 minutes", "60 minutes") ).count().orderBy("window")//写到控制台 windowCounts.writeStream.outputMode("complet...原创 2019-07-31 21:37:03 · 1012 阅读 · 0 评论 -
Spark Structured Streaming Error:java.lang.ClassCastException: org.apache.spark.sql.catalyst.express
Spark Structured Streaming Error:java.lang.ClassCastException: org.apache.spark.sql.catalyst.express解决:val toString1 = udf{(window:GenericRowWithSchema) => window.mkString("-")}val windowCou...原创 2019-08-15 21:13:56 · 393 阅读 · 0 评论 -
Spark Structured Streaming:修改Task数不生效问题
问题:代码里添加参数修改partition参数后不生效:"spark.sql.shuffle.partitions","30"解决:如果Structured Streaming代码sink部分有设置checkpointLocation,如:option("checkpointLocation","hdfs://hbase0/kafka/offset/kafka_order_agg...原创 2019-08-27 18:20:35 · 565 阅读 · 0 评论 -
Spark2.4-Azure HDI 缺包问题汇总
以下缺包问题基于已经替换掉spark2.4相应hadoop包,hive包,hbase包,出现的缺包问题1、Caused by: java.lang.NoClassDefFoundError: org/apache/parquet/hadoop/ParquetOutputFormat$JobSummaryLevelparquet-hadoop-1.10.0.jar2、org.ap...原创 2019-02-25 13:43:59 · 983 阅读 · 0 评论 -
Spark:Structured Streaming Sink总结
测试组件版本:spark:2.4.0目前spark2.4支持以下sink:ForeachBatchSink目前只有spark2.4以上版本支持ElasticSearchSink实现:val esOptions = Map( "es.write.operation" -> "upsert" ,"es.mapping.id" ...原创 2018-12-29 10:47:15 · 2659 阅读 · 1 评论 -
Debezium:Spark Structured Streaming将Kafka的数据写入ElasticSearch
前言:1、数据流Mysql -> Debezium -> Kafka -> Structured Streaming ->ElasticSearch2、Mysql -> Debezium -> Kafka 参考https://blog.csdn.net/u012551524/article/details/842585653、ES/Spar...原创 2018-12-28 19:27:43 · 2349 阅读 · 1 评论 -
CDH 安装spark后,spark-shell启动报错
CDH 装完spark后如果启动spark-shell遇到如下错误:需要给spark配置java环境变量vi/opt/cloudera-manager/cm-5.11.0/lib/cmf/service/client/deploy-cc.sh直接添加环境变量 ...原创 2017-09-20 17:53:48 · 1929 阅读 · 0 评论 -
spark hbase读写
1、通过hadoop API操作Hbaseimport org.apache.hadoop.hbase.HBaseConfigurationimport org.apache.hadoop.hbase.client.{Put, HTable}import org.apache.hadoop.hbase.mapreduce.TableInputFormatimport org.apache.spar...原创 2017-10-26 11:23:00 · 964 阅读 · 0 评论 -
Inteliij IDEA 配置CDH5.11.0版本spark本地开发环境
Inteliij IDEA 配置CDH5.11.0版本spark本地开发环境 1、 IDEA创建maven项目注意配置图上红框的版本号,配成1.6版本,主要解决scala,junit版本报错问题:http://blog.csdn.net/u012551524/article/details/789676462、 然后下一步定义项目基本属性...原创 2018-02-07 09:14:25 · 2790 阅读 · 1 评论 -
spark读取ES数据
maven pom依赖配置: <dependency> <groupId>org.elasticsearch</groupId> <artifactId>elasticsearch-spark-13_2.10</artifactId> <version>6.1.2</version>&原创 2018-02-13 02:54:32 · 8304 阅读 · 2 评论 -
spark写数据到ES
1、查询ES中ID为1的记录 2、重新写入一条ID为1的数据import org.apache.spark.{SparkConf, SparkContext}import org.elasticsearch.spark.rdd.EsSparkobject WriteES { def main(args: Array[String]) { val conf = ne...原创 2018-02-23 11:26:43 · 4852 阅读 · 2 评论 -
Spark升级,编译部署指定版本
背景:为满足需求,我们需要升级spark到2.2.1,并且hadoop版本要是CDH版本spark源码版本:2.2.1CDH版本:5.11.0参考:https://spark.apache.org/docs/latest/building-spark.html#building-for-scala-210 1、 下载spark官方源码 2、 ...原创 2018-04-26 14:39:26 · 1125 阅读 · 0 评论 -
Debezium:数据实时采集从Kafka到phoenix
目的:构建基于hbase的实时数仓解决的问题:RDBMS到Hbase的数据实时采集,并写入Phoenix方法:Postgresql -----> Debezium -----> Kafka ------> Sparkstreaming ------> Phoenix本文:本文主要是从Kafka到Phoe...原创 2018-09-28 21:12:09 · 1951 阅读 · 0 评论 -
Sprak 广播变量broadcast
package spark.learningimport org.apache.spark.{SparkConf, SparkContext}import scala.collection.mutableobject AreaSumV1 { def main(args: Array[String]) = { val sparkConf = new SparkConf().setM...原创 2018-10-25 21:19:22 · 201 阅读 · 0 评论 -
windows本地sparkstreaming开发环境搭建及简单实例
1:开发环境IDEA选择:IntelliJ IDEA Community Edition 2017.1.1 (相比eclipse更方便,不用装那么多插件,且提供免费版,官网直接下载安装就可以)2:环境配置:(开发语言scala)由于公司网络原因,下载不方便,没有用mavn,直接拖了本地的jar包(1) spark core开发jar包: (2) spark streami...原创 2017-05-28 23:00:05 · 5162 阅读 · 0 评论