导jar包方法
启动所有环境设置
hadoop环境已经好了
导入jars包 新建com.example包
将house.txt放入/export/data目录下 修改两个路径
建jar包
修改name,更改路径(易找),双击导入jar包 点击apply
Buid一下
buid完会出现一个out包
把jar包导进去(可拖拽) *jar包在刚刚设置的路径中 我的在d盘 根据自己设置找
去到东西所在的目录 导包
至此显示 表示已经完成导包
SparkSQL练习
通过文件直接创建DataFrame
创建yrt.txt 转换为DataFrame
创建DataFrame对象movies
显示所有字符(默认显示前20条)
获取第一条记录
head()方法获取前3条记录
take()方法获取前3条记录
takeAsList()方法获取前3条数据,并以列表的形式展现
使用collec()方法获取数据
使用collectAsList()方法获取数据
创建DataFrame对象rating和user
Where()方法查询—使用where查询user对象中性别为女且年龄为18岁的用户信息
查看查询结果的前3条信息
filter()方法查询--使用filter查询user对象中性别为女且年龄为18岁的用户信息
查看查询结果的前3条信息
select()方法--使用select方法查询user对象中userId及gender字段的数据,查看查询结果的前3条信息
selectExpr()--对指定字段进行特殊处理
selectExpr()方法查询,查看查询结果的前3条信息
col()方法--查询user对象中zip字段的数据,查看查询结果
apply()方法--查询user对象中zip字段的数据,查看查询结果
limit()方法--查询user对象前3条记录 查看查询结果
orderBy()--用oederBy根据userId字段对user对象进行降序排序,查看结果的前3条信息
sort()--用sort根据userId字段对user对象进行升序排序,查看结果的前3条信息
groupBy()方法--根据gender字段对user对象进行分组
GroupedData()方法--根据gender字段对user对象进行分组,并计算分组中的元素个数
join()方法--允许笛卡尔积操作,使用join(right:DataFrame)方法链接Rating和user两个DataFrame数据,查看前三条记录
使用join(right:DataFrame,joinExprs:Column)方法根据userId字段链接rating和user,查看前3条记录
join(right:DataFrame,joinExprs:Column,joinType:String)方法链接查询,查看前3条记录