DataFrame 创建方式和操作（Spark 中的核心知识，用来计算结构化数据）

最新推荐文章于 2024-05-09 00:24:02 发布

huangyinzhao

最新推荐文章于 2024-05-09 00:24:02 发布

阅读量1.1k

点赞数

分类专栏： Spark RDD

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/huangyinzhao/article/details/79898539

版权

一、 scala版本

1.1:用javabean类型的rdd创建

val sparkConf = new SparkConf().setMaster("local").setAppName("adaa")

val sc = new SparkContext(sparkConf)

var sqlcontext = new SQLContext(sc)

var rdd:RDD[Emp]= sc.parallelize(Array(

"1 zhangsan 3000 20",

"2 lisi 4000 10",

"3 wangwu 8000 20",

"4 zhaoliu 1000 20"

)).flatMap(line =>{

var arr = line.split("\\s+")

var empno:Int = arr(0).toInt

var ename:String = arr(1)

var sal:Int = arr(2).toInt

var deptno:Int = arr(3).toInt

Array(Emp(empno,ename,sal,deptno))

}

var dataframe = sqlcontext.createDataFrame(rdd, Class.forName("a.Emp"))

# 注意：

1. var rdd:RDD[Emp] ，此变量中存放的是Emp类的对象，

所以，在通过RDD创建DataFrame时需要相应的加载Emp的类，此操作的语句即：sqlcontext.createDataFrame(rdd, Class.forName("a.Emp"))

Class.forName("a.Emp") 是类加载器，来加载rdd中存储的元素的类。

2.rdd.flatmap这个算子，参数是一个函数，这个函数的作用就是将rdd中的每个元素变成Array类型的数组，在flatmap隐藏的代码中会将每个小数组都遍历一遍，放入我们的大数组中，就是将集合压成一个。

# registerTempTable注册成为一张表，从而可以通过DataFrame的sql算子进行数据库的操作。

#在sql语句中的列名（empno）是怎么来的哪？

是取自createDataFrame(rdd, Class.forName("a.Emp"))，这个类a.Emp的get方法名（def getEmpno = eno），去掉get首字母小写得到的。一定要注意，这是一个默认的取列名的方式。

dataframe.registerTempTable("emp")

var newdataframe = sqlcontext.sql("select empno from emp")

newdataframe.show()

}
}

1.1中要用的类

package a

// "1 zhangsan 3000 20",
class Emp(empno:Int,ename:String,sal:Int,deptno:Int) {

def this(){
this(0,null,0,0)
}

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
DataFrame 创建方式和操作（Spark 中的核心知识，用来计算结构化数据）

一、 scala版本1.1:用javabean类型的rdd创建 val sparkConf = new SparkConf().setMaster("local").setAppName("adaa") val sc = new SparkContext(sparkConf) var sqlcontext = new SQLCont...
复制链接

扫一扫

专栏目录

huangyinzhao CSDN认证博客专家 CSDN认证企业博客

码龄6年

15: 原创

24万+: 周排名

66万+: 总排名

19万+: 访问

: 等级

1345: 积分

32: 粉丝

55: 获赞

12: 评论

213: 收藏

私信

关注

分类专栏

Flume 3篇
telnet 1篇
Spark 23篇
RDD 8篇
zookeeper 3篇
Linux 4篇
SQL 7篇
Hive 7篇
sqoop 1篇
azkaban 1篇
工作流调度器 1篇
java 5篇
kafka 5篇
scala 9篇
Hadoop 1篇
jdbc 2篇
shell 1篇
Linux定时任务 1篇
git 1篇

最新评论

MySQL与Oracle的数据类型对照表
c0yote: 第三部分 9. || 在MySQL中是逻辑或
MySQL与Oracle的数据类型对照表
蒋国鹏547: 写的不错哦
UUID 用法
childhooding: 膜拜技术大佬,来我博客指点江山吧
hive的知识补充-----hive类型的显示转换cast
村名带个龙: 可以
MyEclipse上传项目到github(详细)
惊云丶: 怎么获取仓库的URL

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。