spark
文章平均质量分 51
Sivan呀
️Sivannnnnnnnn
展开
-
ambari spark连接hive出现的问题和解决
1.使用spark连接hive时,数据目录总是spark的目录,而不是hive的元数据目录官网说的是需要把hive-site.xml还有hadoop和hdfs的核心配置拿到spark的conf下,经过测试,其实只需要把hive-site复制过去就可以。但是spark的conf下已经有了一个hive-site,经过比对,这两个hive-site的内容是不一样的,所以如果在这个时候运行sparksql的话,加载的是spark的warehouse。这个可以理解成spark的内置hive,必须要把这个内置的hi原创 2022-01-11 10:04:42 · 2252 阅读 · 0 评论 -
spark把kafka数据写到hive
写入分区表:准备工作:先建好分区表方法一:(使用dataframe)写数据到数据所在的位置,因为hive分区的本质就是分文件夹,先用spark把数据写到文件夹位置,然后执行sql添加分区1.写数据到文件夹//df为DataFrame df.write.mode(SaveMode.Overwrite).format("parquet") .partitionBy("day" , "dev_platform" ).save(outputPath)2.寻找刚刚数据新建的.原创 2021-06-05 14:18:51 · 3541 阅读 · 0 评论 -
spark写关系型数据库的连接connection问题
用spark在向关系型数据库写数据时,难免会遇到连接connection的问题。如果把创建connection写到创建sparkcontext那里,这样是只会在driver端能用这个connection,在其他excutor是用不了的。所以首先想到的是,RDD的操作是在每个excutor,那么就把创建connection放在RDD的操作里面,这样就能实现功能了。但是如果用上面那个方法,就会担心,每来一批数据是不是都要创建一次连接,然后就会考虑用spark的广播变量,但是经过我的测试,广播变量无法原创 2021-06-05 14:14:31 · 464 阅读 · 0 评论 -
sparkstreaming和sparksql整合时的问题
package com.liuxw.mainimport com.alibaba.fastjson.{JSON, JSONObject}import com.liuxw.bean.Carimport com.liuxw.kafka.MyKafkaUtilimport org.apache.kafka.clients.consumer.ConsumerRecordimport org.apache.spark.sql.{DataFrame, SparkSession}import org.apa原创 2021-06-05 14:13:46 · 291 阅读 · 0 评论 -
sparkRDD转DataFrame写hive的坑
在RDD使用schema和RDD的Row转成DataFrame再写到hive时,中间遇到一个坑,我的写入代码是这样// 创建schemaval schema: types.StructType = StructType( Seq( StructField("capture_time",IntegerType,true), StructField("color_id",IntegerType,true), StructField("locati...原创 2021-06-05 14:11:28 · 596 阅读 · 0 评论