spark编程进阶--spark sql结构化数据,文件处理

导jar包方法

启动所有环境设置

hadoop环境已经好了

导入jars包 新建com.example包

将house.txt放入/export/data目录下 修改两个路径

建jar包

修改name,更改路径(易找),双击导入jar包 点击apply

Buid一下

buid完会出现一个out包 

把jar包导进去(可拖拽) *jar包在刚刚设置的路径中 我的在d盘 根据自己设置找

去到东西所在的目录 导包

至此显示 表示已经完成导包

SparkSQL练习

通过文件直接创建DataFrame

创建yrt.txt 转换为DataFrame

创建DataFrame对象movies

显示所有字符(默认显示前20条)

获取第一条记录

head()方法获取前3条记录

take()方法获取前3条记录

takeAsList()方法获取前3条数据,并以列表的形式展现

使用collec()方法获取数据

使用collectAsList()方法获取数据

创建DataFrame对象rating和user

Where()方法查询—使用where查询user对象中性别为女且年龄为18岁的用户信息

查看查询结果的前3条信息

filter()方法查询--使用filter查询user对象中性别为女且年龄为18岁的用户信息

查看查询结果的前3条信息

select()方法--使用select方法查询user对象中userId及gender字段的数据,查看查询结果的前3条信息

selectExpr()--对指定字段进行特殊处理

selectExpr()方法查询,查看查询结果的前3条信息

col()方法--查询user对象中zip字段的数据,查看查询结果

apply()方法--查询user对象中zip字段的数据,查看查询结果

limit()方法--查询user对象前3条记录 查看查询结果

orderBy()--用oederBy根据userId字段对user对象进行降序排序,查看结果的前3条信息

sort()--用sort根据userId字段对user对象进行升序排序,查看结果的前3条信息

groupBy()方法--根据gender字段对user对象进行分组

GroupedData()方法--根据gender字段对user对象进行分组,并计算分组中的元素个数

join()方法--允许笛卡尔积操作,使用join(right:DataFrame)方法链接Rating和user两个DataFrame数据,查看前三条记录

使用join(right:DataFrame,joinExprs:Column)方法根据userId字段链接rating和user,查看前3条记录

join(right:DataFrame,joinExprs:Column,joinType:String)方法链接查询,查看前3条记录

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值