大数据应用期末总评

作业要求:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363

1.将爬虫大作业产生的csv文件上传到HDFS

  • 启动hadoop服务
  • 在HDFS中创建/bigdatacase/dataset 文件夹 ,将文件上传到HDFS,用于存放成绩表 chengji.txt

2.对CSV文件进行预处理生成无标题文本文件

  • 查看score.csv数据文件
  • 生成pre_deal.sh1文件,为每行记录增加一个id字段(让记录具有唯一性)
  • 对文件进行预处理,并查看处理结果

 

3.把hdfs中的文本文件最终导入到数据仓库Hive中

  • 启动mysql服务
  • 启动hive ,创建数据库bd_s
  • 创建数据库表(id,时间,学期,编号,课程名,课程属性,绩点,成绩分数,所属学院)
  •  查询表中前十条数据,验证数据库是否有数据

 

4.在Hive中查看并分析数据

  1)依学年时间,统计有多少(成绩)数据,大三下学期数据不在内

  • 依照课程属性进行区分,并统计
  •  
  • 依照课程属性,查询某一年的课程总数

    结果分析:学院较注重学生专业素质的培训,与基础知识课程,公共课程全方面发展的学习规划,从大一(2016-2017学年)可看出,高等数学英语等文化课程较多,而专业实践课较少,随着时间推移,学院的重心在于学生的实践培养,几乎没有基础选修的课程,目的在于学生面向社会的发展和技能的提升。

     2)依学年时间,统计有多少(成绩)数据,大三下学期数据不在内

  • 依成绩进行降序显示其课程名与分数
  • 查询成绩挂科现象,即成绩小于60,显示结果为0
  • 统计2018-2019年的平均绩点
  • 分组统计全学年度的平均绩点

     结果分析:从数据可见,每学年度的绩点有小幅度增长的,从大一,到大三第一学期,从2.60到3.12,每次增长幅度为0.25-0.3,稳定发展。总的来说,专业成绩明显优势,体育活动亦有较好的发展,基本课程则明显弱势,由于学生的普遍认为,只要注重专业成绩,平时的基本文化课程没什么用处,受到这个观念的影响下,才会有了这样的发展。

 

转载于:https://www.cnblogs.com/yuanzhenpeng/p/11058016.html

1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值