![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
西安人走哪都要吃泡馍
这个作者很懒,什么都没留下…
展开
-
scala中去除字符串前后空格API---trim,自定义hashset用来存储元素作为查找是否存在
import scala.collection.mutable.ListBuffer val test_hash = new collection.mutable.HashSet[String]() test_hash.add("123") test_hash.add("126") test_hash.add("125") test_hash.add("124") val list_test = new ListBuffer[String]() if(t.原创 2021-05-11 14:00:21 · 2246 阅读 · 0 评论 -
spark存mysql多线程插入oom问题优化---采用HikariCP链接
all_data.repartition(10) .foreachPartition(tmp => { //获取数据库连接池 val dsPool = DataSourceSingleton.getDataSourceInstance //获取数据库连接池 val connection = dsPool.getConnection while (tmp.hasNext) { val row.原创 2021-04-26 21:31:15 · 407 阅读 · 0 评论 -
spark更新mysql数据
import java.sql.{Connection, DriverManager}import java.util.Propertiesimport org.apache.spark.sql.{DataFrame, SparkSession}object Test01 { def main(args: Array[String]): Unit = { val spark = SparkSession.builder() .appName("Test01")原创 2020-11-05 15:00:17 · 884 阅读 · 0 评论 -
spark读取es数据
val conf = new SparkConf().setAppName("Test02").setMaster("local[*]") conf.set("es.index.auto.create","true") conf.set("es.nodes","192.168.161.101") conf.set("es.port","9200") conf.set("es.nodes.wan.only","true") conf.set("es.read.field原创 2020-11-04 19:26:13 · 1468 阅读 · 0 评论 -
spark读取esField ‘xx‘ not found; typically this occurs with arrays which are not mappedas single value
spark读取es数据时,数据中含有array类型,发出报错:Field 'collect_list(comm).time' not found; typically this occurs with arrays which are not mapped as single value则增加配置文件即可:conf.set("es.read.field.as.array.include","数组名字")...原创 2020-11-04 19:20:32 · 582 阅读 · 0 评论 -
执行spark-submit时,一直在Application report for application_1599648117906_0005 (state: ACCEPTED)刷新,解决方案
执行任务时,卡在(state:ACCEPTED)这一直不动,20/09/09 11:15:16 INFO yarn.Client: Application report for application_1599648117906_0004 (state: ACCEPTED)20/09/09 11:15:17 INFO yarn.Client: Application report for application_1599648117906_0004 (state: ACCEPTED)20/09/09原创 2020-09-09 20:04:31 · 7158 阅读 · 2 评论 -
spark中spark-submit在yarn中执行spark程序的jar
*1、先在idea中打成jar包1>、在打jar时,一定要把 SparkSession.master("local[2]")注释掉**2、上传jar到linux中3、启动spark程序**此命令一定要在spark安装包下执行呢**/spark/sbin/start-all.sh启动完,用jps查看进程4、启动spark历史服务器此命令一定要在spark安装包下执行呢/spark/sbin/start-history-server.sh 5、使用spar...原创 2020-09-08 20:06:48 · 939 阅读 · 0 评论 -
saprk结果输出到Elasticsearch中----全部干货
喜欢钻研一起谈论的技术控, 一起打通大数据各个组件的通道项目需求:spark提取hive数据计算出结果数据输出到ES中spark版本:2.2ES版本:6.7pom配置文件::<repositories> <repository> <id>aliyun</id> <url>http://maven.aliyun.com/nexus/content/groups/public/</url>原创 2020-09-08 19:36:34 · 87 阅读 · 0 评论 -
saprk数据输出到mysql--直接上干货
此篇内容较简单干练,看不懂,欢迎关注加好友一起讨论,一起钻研打通大数据那个组件的通道val df: DataFrame = spark.sql("select * from merchantinfo ") df.write.mode(SaveMode.Overwrite).format("jdbc").option("url","jdbc:mysql://192.168.200.241:3306").option("dbtable","test_superset.test1").option(原创 2020-09-08 19:18:46 · 182 阅读 · 0 评论 -
spark专业术语解释
Application/App 指的是用户编写的Spark应用程序/代码,包含了Driver功能代码和分布在集群中多个节点上运行的Executor代码。 提示:当对RDD操作代码都是运行在Executor中代码 使用不同语言,编写代码不一样: Java/Scala语言:编译以后Class文件 Python语言:脚本文件Spark应用程序,由一个或多个作业JOB组成(因为代码中可能会调用多次Action)每个Job就是RDD执行一个Action函数:没有返回值,或者返回值不是RDD原创 2020-05-27 15:06:41 · 756 阅读 · 0 评论