【楚怡杯】职业院校技能大赛 “Python程序开发”赛项样题六

模块一:网络爬虫(20分)

任务一:获取网站数据

【任务说明】

数据是很多企业的生命,没有数据就没有一切。企业首先要解决的问题就是数据问题,那么获取数据的手段有很多种,其中爬虫就是性价比最高的一种。现有一个天气网站,网站上有大量城市关于天气相关指数等数据,请根据具体要求,编写爬虫实现数据抓取。

【任务要求】

以网站首页为入口,从该页面获取青岛、开封、苏州、扬州、烟台、丽江、桂林、三亚、厦门、大理共10个城市的历史天气数据,抓取字段见表一。

表一:历史天气数据字段

字段

城市、日期、最高气温、最低气温、天气、风向

现需要通过爬虫抓取相应数据,具体要求如下:

1.使用requests库向url发送请求;

2.使BeautifulSoup或Xpath从响应内容中解析数据;

3.从首页中获取视频分类名和各类别链接;

4.向各类别链接发送请求,从响应内容中获取视频具体的播放、评论、点赞等数据;

5.将抓取的数据存入MySQL数据库中;

6.绕过网站的反爬虫检测;

【操作说明】

1、从虚拟机桌面“赛题/01_网络爬虫/01_获取网站数据”文件夹中获取相关项目工程代码。

2、完成任务后,根据平台“答题区”对应内容要求,完成答题报告并点击“保存”按钮实时保存。

模块二:数据清洗(30分)

任务一:数据清洗

【任务说明】

数据清洗是数据分析过程中很重要的一个环节,没有高质量的数据清洗就没有高质量的数据分析。在不准确的数据基础上做出的分析,结论将变得毫无价值和意义。

现有一份相关行业的企业数据,请根据任务要求完成数据清洗功能。

【任务要求】

数据集中有公司名、估值市值、省份、地址、城市、企业属性、成立时间、行业几个字段,请你使用NumPy和Pandas按如下要求对数据进行清洗:

1.删除空值;

2.将"成立时间"的时间戳转换成时间类型;

3.对"行业"拆分为"行业大致类别"、"行业细致类别",并删除"行业";

4.对"行业细致类别"分组查看"估值市值"的降序排序内容;

5.查看进8年以来新建的公司内容部;

6.对"企业属性"的异常值用众数填充;

7.修改列名"估值市值"为"估值市值(亿) ";

8.根据"地址"统计"估值市值"的总和;

9.查看已上市公司最多的5个城市;

10.将"成立时间"放置第二列,并只保留年月日;

11.将清洗后的数据存入MySQL数据库中。

【操作说明】

1、从虚拟机桌面“赛题/02_数据清洗/01_数据清洗”文件夹中获取相关项目工程代码。

2、完成任务后,根据平台“答题区”对应内容要求,完成答题报告并点击“保存”按钮实时保存。

模块三:数据分析及可视化(30分)

任务一:独行月球电影每日评论数分析

【任务说明】

现有独行月球电影每日评论数据,请根据任务要求完成数据分析。

【任务要求】

读取所需数据集后对数据进行必要的清洗,绘制出面积图并用Django框架渲染到前端页面,绘图要求如下:

1.使用PyEcharts库绘制面积图;

2.整个画布大小宽为700px,高为400px,背景颜色为红蓝渐变,上红下蓝,红色:rgb(235,26,67),蓝色:rgb(41,163,154);

3.x轴为日期y轴为评论条数,标签颜色都为白色透明度为0.5;

4.y轴轴线颜色为白色,宽度为3;

5.标题为"独行月球每日评论量",居中显示、字体颜色为白色

6.轴线、点边框为白色、点为红色、图元标签为白色

7.线面积部分为蓝色由上到下渐变

8.栅格线透明度为0.3

9.提示线为十字型,线类型为虚线

10.使用Django框架在前端页面中渲染展示面积图;

示意图如下:

图1:面积示意图

【操作说明】

1、从虚拟机桌面“赛题/03_数据分析及可视化/ 03_工程代码”文件夹中获取相关项目工程代码。

2、完成任务后,根据平台“答题区”对应内容要求,完成答题报告并点击“保存”按钮实时保存。

任务二:独行月球电影每日评论用户分析

【任务说明】

现有独行月球电影每日评论数据,请根据任务要求完成数据分析。

【任务要求】

读取所需数据集后,对数据进行必要的清洗,绘制出独行月球电影每日评论用户词云图。绘图要求如下:

1.随机取200个用户名,使用PyEcharts库绘制词云图;

2.画布大小宽为700px,高为500px;

3.标题为"独行月球ID词云图",字体居中显示

4.背景颜色为镜像渐变,r大小为1.2,渐变0时,设置颜色为透明色,1时为蓝色:rgb(41,163,154)

5.使用Django框架在前端页面中渲染任务一的面积图和任务二词云图;

6.示意图如下:

图2:词云图示意图

【操作说明】

1、从虚拟机桌面“赛题/03_数据分析及可视化/ 03_工程代码”文件夹中获取相关项目工程代码。

2、完成任务后,根据平台“答题区”对应内容要求,完成答题报告并点击“保存”按钮实时保存。

模块四:机器学习(15分)

任务一:房屋销售预测

任务说明】

数据主要包括2014年5月至2015年5月美国King County的房屋销售价格以及房屋的基本信息。 数据分为训练数据和测试数据,分别保存在kc_train.csv和kc_test.csv两个文件中。 其中训练数据主要包括10000条记录,14个字段,主要字段说明如下: 第一列“销售日期”:2014年5月到2015年5月房屋出售时的日期 第二列“销售价格”:房屋交易价格,单位为美元,是目标预测值 第三列“卧室数”:房屋中的卧室数目 第四列“浴室数”:房屋中的浴室数目 第五列“房屋面积”:房屋里的生活面积 第六列“停车面积”:停车坪的面积 第七列“楼层数”:房屋的楼层数 第八列“房屋评分”:King County房屋评分系统对房屋的总体评分 第九列“建筑面积”:除了地下室之外的房屋建筑面积 第十列“地下室面积”:地下室的面积 第十一列“建筑年份”:房屋建成的年份 第十二列“修复年份”:房屋上次修复的年份 第十三列"纬度":房屋所在纬度 第十四列“经度”:房屋所在经度

【任务要求】

1.读取房屋销售数据;

2.提取合适的特征;

3.对数据进行编码等预处理;

4.划分训练集和测试集;

5.构建机器学习模型;

6.编写模型训练相关代码,完成模型训练;

7.将训练好的模型进行保存;

8.使用模型进行预测。

【操作说明】

1、从虚拟机桌面“赛题/04_机器学习/01_房屋销售预测”文件夹中获取项目工程文档。

2、完成任务后,根据平台“答题区”对应内容要求,完成答题报告并点击“保存”按钮实时保存。

任务二:工业蒸汽量预测

【任务说明】

火力发电的基本原理是:燃料在燃烧时加热水生成蒸汽,蒸汽压力推动汽轮机旋转,然后汽轮机带动发电机旋转,产生电能。在这一系列的能量转化中,影响发电效率的核心是锅炉的燃烧效率,即燃料燃烧加热水产生高温高压蒸汽。锅炉的燃烧效率的影响因素很多,包括锅炉的可调参数,如燃烧给量,一二次风,引风,返料风,给水水量;以及锅炉的工况,比如锅炉床温、床压,炉膛温度、压力,过热器的温度等。

【任务要求】

1.读取蒸汽量数据;

2.对数据进行清洗以及预处理;

3.特征提取以及特征工程;

4.划分训练集及测试集;

5.选取合适的机器学习模型;

6.使用数据训练模型并进行模型调优;

7.根据锅炉的工况,预测产生的蒸汽量;

8.将训练好的模型进行保存。

【操作说明】

1、从虚拟机桌面“赛题/04_机器学习/02_工业蒸汽量预测”文件夹中获取项目工程文档。

2、完成任务后,根据平台“答题区”对应内容要求,完成答题报告并点击“保存”按钮实时保存。

职业素养(5分)

【任务要求】

参赛选手操作规范、代码清晰易读、遵守考场纪律、收纳整理干净整洁、文明竞赛。

  • 10
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Play_Sai

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值