spark / scala
spark ,scala相关
zhangbw~
研究生在读,backend developer.
展开
-
2020年安徽省大数据与人工智能应用竞赛
2020年安徽省大数据与人工智能应用竞赛A卷2020年安徽省大数据与人工智能应用竞赛A卷学校名称: 队伍名称: 队伍编号: 第一部分:大数据平台搭建与运维(10分)场景说明目前,大数据技术及应用已经深入到各行各业,各高校也在积极建设信息化、智慧化校园,那么大数据中心建设必不可少,它可以服务于学校上游和下游,解决数据孤岛问题。假设现在某大学正在假设大数据中心,首先搭建大数据基础平台,用于数据存储和批量计算以及实时查询,现在请你完成Hadoo原创 2021-01-08 09:24:37 · 5057 阅读 · 5 评论 -
2020安徽省大数据与人工智能网络赛题目
今年参加了安徽省大数据与人工智能比赛,第一次参加、获得省级二等奖,(队友很给力,我拖后腿了), 自己实力还是有所欠缺、比赛过程中时间安排不是很合理,导致最后一题综合题(spark数据处理)没有时间做,现附上20年网络赛真题,供以后参加比赛的同学参考,2020年安徽省大数据与人工智能应用初赛题目第一部分:大数据平台部署(10分)第二部分:大数据预处理部分(20分)第三部分:大数据分析(20分)第四部分:可视化(15分)第五部分 人工智能(20分)第六部分:综合题(15分)数据获取第一部分:大数据平.原创 2020-12-25 16:00:08 · 3883 阅读 · 5 评论 -
Spark : rdd转化为dataframe ,通过三种方式添加字段名称
目的: 将rdd转化为 dataframe ,并指定字段名称下面以一个实际的例子来演示:读取的数据如下: student_info.txt 、依次为学号姓名性别班级入学年份170401011001,施礼义,男,0101,20170901170401011002,王旭,男,0101,20170901170401011003,肖桢,女,0101,20170901170401011004,吴佩东,男,0101,20170901170401011005,魏会,男,0101,20原创 2020-10-30 19:03:35 · 1366 阅读 · 0 评论 -
将SparkSql查询到的结果保存到本地
Spark.sql查询后得到一个DataFrame对象val df: DataFrame = spark.sql("select * from student")将结果保存到本地 【格式为csv格式】df.write.format("csv").save("output")补充: 如果sql语句中涉及到分区 ,那么保存的文件个数 与 分区的个数相同。如果想将查询的结果保存到一个文件中,可以使用下面的方法解释 :使用repartition方法将分区个数设置为一个df.repartitio原创 2020-10-28 22:56:51 · 4644 阅读 · 8 评论