DataFrame
文章平均质量分 61
Data_IT_Farmer
BJUT 2014级 计算机学院小硕一枚,现为某上市金融公司--高级大数据开发工程师一枚。自20170701开始记录自己的技术工作生涯!广结天下技术之友,笑对未来技术之难题!
展开
-
Spark DataFrame 的窗口函数使用的两种形式介绍
1、概述上文介绍了sparkdataframe常用操作算子。除此外,spark还有一类操作比较特别——窗口函数。窗口函数常多用于sql,spark sql也集成了,同样,spark dataframe也有这种函数,spark sql的窗口函数与spark dataframe的写法不太一样。1.1、spark sql 写法select pcode,event_date,sum(duration) over (partition by pcode order by event_date as.转载 2021-07-27 13:34:24 · 3856 阅读 · 0 评论 -
scala spark 创建DataFrame的五种方式
scala spark 创建DataFrame的多种方式1. 通过RDD[Row]和StructType创建import org.apache.log4j.{Level, Logger}import org.apache.spark.rdd.RDDimport org.apache.spark.sql.types.{IntegerType, StringType, StructField, StructType}import org.apache.spark.sql.{DataFrame,转载 2021-01-28 18:09:23 · 7059 阅读 · 0 评论 -
Spark笔记之使用UDF(User Define Function)
Spark笔记之使用UDF(User Define Function)目录1、UDF介绍2、使用UDF2.1 在SQL语句中使用UDF2.2 直接对列应用UDF(脱离sql)3、完整代码1、UDF介绍UDF(User Define Function),即用户自定义函数,Spark的官方文档中没有对UDF做过多介绍,猜想可能是认为比较简单吧。几乎所有sql数据库的实现都为用户提供了扩展接口来增强sql语句的处理能力,这些扩展称之为UDXXX,即用户定义(User Defin转载 2021-01-25 17:05:06 · 6529 阅读 · 0 评论 -
Spark DataFrame 使用UDF实现UDAF的一种方法
Spark DataFrame 使用UDF实现UDAF的一种方法1、Background当我们使用Spark Dataframe的时候常常需要进行group by操作,然后针对这一个group算出一个结果来。即所谓的聚合操作。然而 Spark提供的aggregation函数太少,常常不能满足我们的需要,怎么办呢?Spark 贴心的提供了UDAF(User-defined aggregate function),听起来不错。但是,这个函数实现起来太复杂,反正我是看的晕晕乎乎,难受的很。反倒是转载 2021-01-25 16:47:20 · 1100 阅读 · 1 评论 -
spark计算两个DataFrame的差集、交集、合集
spark计算两个DataFrame的差集、交集、合集闲话不说,直接上代码和结果import org.apache.log4j.{Level, Logger}import org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.sql.{SQLContext, SparkSession}/** * @class DataFrameFun * @author yyz * @date 2021/01/24 20:原创 2021-01-24 21:17:35 · 6830 阅读 · 0 评论 -
Spark SQL中rdd转换成DataFrame的五种方式
Spark SQL中生成DataFrame的五种方式以前公司用的是spark-core,但是换工作后用的多是spark-sql,spark-dataframe。最近学习了很多spark-dataframe,在此做一个有spark经验的spark dataframe快速入门的教程。方式一、定义一个case class类,将其作为RDD中的存储类型,然后导包import spark.implicts._ 最后直接调用RDD的方法即:toDF方法即可生成DataFrame/** *原创 2021-01-24 18:07:27 · 3281 阅读 · 0 评论 -
scala spark dataframe和rdd 获取分区个数及每个分区的内容
1 dataframe获取分区个数scala> // 构造测试数据源scala> val df = spark.sparkContext.makeRDD(1.to(100), 4).toDF("id")df: org.apache.spark.sql.DataFrame = [id: int]scala> // 获取分区个数scala> val partition_num=df.rdd.partitions.lengthpartition_num: Int =原创 2020-12-27 15:43:09 · 5314 阅读 · 0 评论 -
Spark模拟实现统计出每个域名下面访问次数最多的前三个URL
Spark模拟实现统计出每个域名下面访问次数最多的前三个URL一、需求:现在假设有一个IT教育网站,有Java,PHP,net等多个栏目,下面是模拟实现的网站日志第一个字段是访问日期,第二个字段是访问的URL,其中每个栏目有一个独立域名,如下:java.aaaaaaa.cnnet.aaaaaaa.cnphp.aaaaaaa.cn统计出每个域名下面访问次数最多的前三个URL...原创 2020-01-02 16:47:21 · 1085 阅读 · 0 评论 -
PySpark中RDD与DataFrame相互转换操作
1. 弹性数据集RDD RDD是一个抽象的分布式数据集合,它提供了一系列转化操作(例如基本的map()、flatMap()、filter(),类集合操作union()、intersection()、subtract())和行动操作(例如collect()、count()、take()、top()、reduce()、foreach())。可以说,RDD是非常灵活的数据集合,其中可以存放...转载 2019-04-20 11:37:06 · 36843 阅读 · 2 评论 -
pyspark之DataFrame数据处理学习【数据去重之一】
pyspark之DataFrame数据处理学习【数据去重之一】1、重复数据,例如spark = SparkSession.builder.appName("dataDeal").getOrCreate()df = spark.createDataFrame([ (1, 144.5, 5.9, 33, 'M'), (2, 167.2, 5.4, 45, 'M'), ...转载 2018-10-17 21:00:15 · 13475 阅读 · 0 评论
分享