Spark
Alex.liu
这个作者很懒,什么都没留下…
展开
-
shell脚本调用spark-sql
#!/bin/sh#set -x##########################author : robin#version : v3.0##########################$1 : start time for business circle#$2 : end time for business circle#$3 : start time of slowly changing dimension for SF orginazation#$4 : spark par原创 2021-06-12 20:22:17 · 1313 阅读 · 2 评论 -
spark动态更新hive表的分区数据
使用spark操作hive的时候,当需要对hive的分区表进行动态更新分区内容时,可在SparkSession中进行如下设置SparkSession.builder() .master("yarn") .appName(appName) .enableHiveSupport() .config("hive.exec.dynami...原创 2019-05-31 17:39:08 · 2731 阅读 · 2 评论 -
idea中spark的pom.xml配置
<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://ma...原创 2019-06-04 11:08:42 · 3106 阅读 · 0 评论 -
Spark的DataFrame中用explode将array数组转换成多行
//service_prod_code字段类型为arrayval df_info = spark.sql( """ select product, service_prod_code from tablename """.stripMargin)//使用explode会将原值中的null值删除掉,就是说,如果原来的arr...原创 2019-06-05 09:36:57 · 7396 阅读 · 1 评论 -
spark修改日志级别
通过SparkSession进行设置val spark = SparkSession .builder() .appName("AWSMMonitorInfo") .enableHiveSupport() .config("hive.exec.dynamic.partition", true) // 支持 Hive 动态分区 .conf...原创 2019-06-17 10:46:52 · 2940 阅读 · 0 评论 -
使用spark对dataframe的某一列调用HTTP请求并返回数据给dataframe
代码package cn.spark.sqlimport org.apache.http.client.methods.HttpGetimport org.apache.http.impl.client.DefaultHttpClientimport org.apache.spark.sql.SparkSessionimport scala.io.Sourceobject Http...原创 2019-06-23 11:58:40 · 5905 阅读 · 1 评论 -
spark实现用窗口函数进行去重计数的功能
df.withColumn("new_col_name", size(collect_set($"need_count_col_name").over(Window.partitionBy($"window_col_name"))))//同理在hive中也可以采用这种利用size和collect_set的形式实现用窗口函数进行去重计数的功能...原创 2019-06-27 15:18:11 · 2414 阅读 · 1 评论