![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
lx6766
这个作者很懒,什么都没留下…
展开
-
spark.read.load路径通配符报错
parquet文件是个目录,读到哪个层级的问题原创 2019-06-18 19:27:12 · 1458 阅读 · 0 评论 -
spark sql执行逻辑
执行逻辑,逻辑优化,生成一个sql的计划图,在spark application web ui界面 ,可见执行信息原创 2019-06-18 14:16:02 · 273 阅读 · 0 评论 -
spark df api操作
val df3=df1.join(df2,on字段,连接类型)1 两个表的关联字段名一样val df=a11.join(a22,Seq("receive_time","channel_code"))2 两个表的关联字段名不同 (3个等于号) val h5_1=h10_lev3.join(h10_lev2,h10_lev3("parentid_3")===h5_lev2("no...原创 2019-06-19 14:17:56 · 1111 阅读 · 0 评论 -
spark missing from status#631,bitrate#624 in operator !
操作过程:val playCount = spark.sql(sqlPlay) //.cache()val preview=playCount.filter("item_type like '%-P'")val record1=playCount.except(preview)上面这句从一个对象获取另外一批的df 使用except方法就报错,改为下面这样就通过了//val recor...原创 2019-03-29 14:12:28 · 104 阅读 · 0 评论 -
spark ----如何查看parquet中较长的字符串
1 val a=spark.read.load("/xxx/xxx")2直接把parquet文件从hadoop拿到本地的话,因为parquet,不能直接查看3 改写为文本形式拿到服务器上查看,注意dataframe-->text只能取其中的一个字段import org.apache.spark.sql.SaveModeval b=a.select("query").repar...原创 2019-03-25 16:39:29 · 427 阅读 · 0 评论 -
scala日期操作
def getSeason(dateTime: DateTime): Int = { (dateTime.getMonthOfYear - 1) / 3 + 1 }import org.joda.time.DateTimeval dayS2="2019-03-02" val des_file_day=DateTime.parse(dayS2).toString("yyyy-M...原创 2019-03-21 18:11:58 · 719 阅读 · 0 评论 -
spark encoder错误,需要import spark.implicits._
Error:(33, 64) Unable to find encoder for type stored in a Dataset. Primitive types (Int, String, etc) and Product types (case classes) are supported by importing spark.implicits._ Support for seria...原创 2019-03-12 15:30:29 · 2058 阅读 · 0 评论 -
spark 2.3官网提供的读取kafka流数据
package com.ultimate.music.streaming.tangoimport java.sql.PreparedStatementimport com.ultimate.music.util.PropertyUtil._import com.ultimate.music.util.{PropertyUtil}import org.apache.kafka.clie...原创 2019-03-07 17:09:55 · 415 阅读 · 0 评论 -
spark 使用Kryo优化序列化性能
在Spark中,主要有三个地方涉及到了序列化:在算子函数中使用到外部变量时,该变量会被序列化后进行网络传输(见“原则七:广播大变量”中的讲解)。 将自定义的类型作为RDD的泛型类型时(比如JavaRDD,Student是自定义类型),所有自定义类型对象,都会进行序列化。因此这种情况下,也要求自定义的类必须实现Serializable接口。 使用可序列化的持久化策略时(比如MEMORY_ON...转载 2019-03-07 14:05:33 · 346 阅读 · 0 评论 -
spark foreachPartition思考
case:Spark向kafka中写入数据对于每个partition的每条记录,我们都需要创建KafkaProducer,然后利用producer进行输出操作,注意这里我们并不能将KafkaProducer的新建任务放在foreachPartition外边,因为KafkaProducer是不可序列化的(not serializable)。显然这种做法是不灵活且低效的,因为每条记录都需要建立一...转载 2019-03-07 14:02:13 · 1079 阅读 · 0 评论 -
spark加载文件路径问题
路径/i-data/it/user_newly/20190218.parquet需要注意的事项有:1因为首次加载文件时,目录下还没有任何文件,此路径只能写到i-data/it/user_newly/,不能后面加上*,会报错路径找不到2因为首次加载时还没有文件,如果又需要加载则需要先定义schema,指定文件的数据格式字段等,否则spark无法自动推断3可能需要先创建好目录,如果读取...原创 2019-03-06 18:13:10 · 936 阅读 · 0 评论 -
如何通过yarn方式执行spark-shell
写一个sp_sh.sh,内容:/home/lsx/soft/spark-2.1.1-bin-hadoop2.7/bin/spark-shell \ --master local[5] \ --driver-memory 5G \ --num-executors 10 \ --executor-cores 3 \ --executor-memory 2G --conf spark....原创 2019-08-06 19:17:18 · 605 阅读 · 0 评论