Spark
文章平均质量分 88
目录哥
这个作者很懒,什么都没留下…
展开
-
ogg的update获取全列和参数
ogg拉取数据到kakfa的过程中update获取的列只有被修改的列,如果要获取全部列,加上参数fetchcols(*)就可以ogg getupdatebefores参数影响的是获取的before或者afterOGG其它常用参数建议MGR参数 序号 配置参数 备注 1 PORT 7839 必选参数 2 USERID ggs, P...原创 2020-07-20 17:06:01 · 3006 阅读 · 1 评论 -
Java Scala 混合编程导致 编译失败 ,【找不到符号】问题解决
大致就是 工程里分了 java 代码 和 scala 代码。然后在java代码中 引用了 scala 的代码。运行不报错。但是打包就是一直报错。[ERROR] Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:3.1:compile (default-compile) on project s...原创 2019-12-07 16:17:19 · 618 阅读 · 0 评论 -
java集合和scala集合的相互转换
对于java中的集合元素并不能在scala中拿来就用的,需要进行相应的转换。1. 转换规则如下从下面可以看出,有些可以相互转换的,有些只能单向转换:scala.collection.Iterable <=> java.lang.Iterablescala.collection.Iterable <=> java.util.Collectionscala...原创 2019-07-31 16:13:31 · 486 阅读 · 0 评论 -
Spark接入kafka的jar问题
首先spark的实时处理分为 sparkStreaming和structured streaming 俩中处理方式sparkStreaming 需要引入<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming-kafka-0-8...原创 2019-07-12 10:53:28 · 1066 阅读 · 0 评论 -
java.lang.NoSuchMethodError: io.netty.buffer.PooledByteBufAllocator.
遇到这种问题首先考虑是不是jar包冲突 也就是依赖中存在多个版本的netty导致程序出现NoSuchMethodError异常。接下来使用命令mvn dependency:tree >> log/dependency.log用于分析现在程序中已有的jar包依赖,通过搜索日志文件中发现:org.apache.hbase:hbase-client:jar:1.4.1:compi...原创 2019-07-13 19:02:05 · 3912 阅读 · 0 评论 -
SparkSql的几种join
1.小表对大表(broadcast join) 将小表的数据分发到每个节点上,供大表使用。executor存储小表的全部数据,一定程度上牺牲了空间,换取shuffle操作大量的耗时,这在SparkSQL中称作Broadcast Join Broadcast Join的条件有以下几个: *被广播的表需要小于 spark.sql.autoBroadc...原创 2019-01-02 17:12:04 · 153 阅读 · 0 评论 -
Spark程序引用别的jar
第一种方式操作:将第三方jar文件打包到最终形成的spark应用程序jar文件中应用场景:第三方jar文件比较小,应用的地方比较少第二种方式操作:使用spark-submit提交命令的参数: --jars要求:1、使用spark-submit命令的机器上存在对应的jar文件2、至于集群中其他机器上的服务需要该jar文件的时候,通过driver提供的一个http接口来获取...原创 2019-01-02 17:11:01 · 375 阅读 · 0 评论 -
SparkSql常见内置函数
字符串:1.concat对于字符串进行拼接concat(str1, str2, ..., strN) - Returns the concatenation of str1, str2, ..., strN.Examples:> SELECT concat('Spark', 'SQL'); SparkSQL2.concat_ws在拼接的字符串中间添加某种格式concat...原创 2019-01-02 17:09:37 · 1997 阅读 · 0 评论 -
SparkSql ----DataFrame
Spark SQL是spark用来处理结构化数据的Spark中所有功能的入口点都是SparkSession类。要创建基本的SparkSession,只需使用SparkSession.builder():import org.apache.spark.sql.SparkSessionval spark = SparkSession 。builder () 。appNa...原创 2018-11-19 10:38:44 · 169 阅读 · 0 评论 -
idea用spark本地操作hdfs集群
在windows开发机上使用spark的local模式读取远程hadoop集群中的hdfs上的数据,这样的目的是方便快速调试,而不用每写一行代码或者一个方法,一个类文件都需要打包成jar上传到linux上,再扔到正式的集群上进行测试,像功能性验证直接使用local模式来快速调测是非常方便的,当然功能测试之后,我们还需要打包成jar仍到集群上进行其他的验证比如jar包的依赖问题,这个在local模式...原创 2018-11-14 15:12:15 · 3996 阅读 · 0 评论