【楚怡杯】职业院校技能大赛 “Python程序开发”赛项样题五

模块一:网络爬虫(20分)

任务一:获取网站数据

【任务说明】

数据是很多企业的生命,没有数据就没有一切。企业首先要解决的问题就是数据问题,那么获取数据的手段有很多种,其中爬虫就是性价比最高的一种。现有一个房产信息网站,网站上有大量城市关于房产信息等数据,请根据具体要求,编写爬虫实现数据抓取。

【任务要求】

以网站首页为入口,从该页面获取长沙二手房信息数据,抓取字段见表一。

表一:长沙二手房信息数据字段

字段

户型、建筑面积、单价、朝向、楼层、装修、小区、区域、建筑年代、有无电梯、产权性质、住宅类别、建筑结构、建筑类别、挂牌时间、房源评级、交易价值、居住品质、便利指数、物业服务、总价

现需要通过爬虫抓取相应数据,具体要求如下:

1.使用requests库向url发送请求;

2.使BeautifulSoup或Xpath从响应内容中解析数据;

3.从首页中获取视频分类名和各类别链接;

4.向各类别链接发送请求,从响应内容中获取视频具体的播放、评论、点赞等数据;

5.将抓取的数据存入“赛题/01_网络爬虫/01_获取网站数据/01数据”文件夹中CSV文件中;

6.将抓取的数据存入MySQL数据库中;

7.绕过网站的反爬虫检测;

【操作说明】

1、从桌面“赛题/01_网络爬虫/01_获取网站数据/02代码”文件夹中创建相关项目工程代码。

2、完成任务后,在“赛题/01_网络爬虫/01_获取网站数据/03报告”文件夹中,完成答题报告保存。

模块二:数据清洗(30分)

任务一:数据清洗

【任务说明】

数据清洗是数据分析过程中很重要的一个环节,没有高质量的数据清洗就没有高质量的数据分析。在不准确的数据基础上做出的分析,结论将变得毫无价值和意义。

将模块一获取的长沙二手房信息数据,请根据任务要求完成数据清洗功能。

【任务要求】

数据集中有户型、建筑面积、单价、朝向、楼层、装修、小区、区域、建筑年代、有无电梯、产权性质、住宅类别、建筑结构、建筑类别、挂牌时间、房源评级、交易价值、居住品质、便利指数、物业服务、总价等字段,请你使用NumPy和Pandas按如下要求对数据进行清洗:

1.从MySQL数据库读取模块一保存的数据;

2.将相关时间字段转换成时间类型;

3.对"区域"拆分为"所在区域"、"具体区域",并删除"区域";

4.按"所在区域"分组查看"单价"的降序排序内容;

5.查看房价超过300万元二手房;

6.对重复值处理、异常值处理、缺失值处理;

7.修改列名"单价"为"单价(元/平米)";

8.根据"所在区域"计算"平均房价";

9.按"所在区域"分组查看最高的5个二手房信息;

10.按"所在区域"分组计算长沙二手房平均面积及总面积;

11.将清洗后的数据存入MySQL数据库中;

12.清洗后的数据存入“赛题/02_数据清洗/01_数据清洗/01数据”文件夹中CSV文件中;

【操作说明】

1、从桌面“赛题/02_数据清洗/01_数据清洗/02代码”文件夹中创建相关项目工程代码。

2、完成任务后,在“赛题/02_数据清洗/01_数据清洗/03报告”文件夹中,完成答题报告保存。

模块三:数据分析及可视化(30分)

任务一:探究单价、数量、总价和行政区域之间的关系

【任务说明】

根据模块一获取的长沙二手房信息数据,探究单价、数量、总价和行政区域之间的关系

【任务要求】

读取所需数据集后对数据进行必要的清洗,绘制出单价、数量、总价和行政区域之间的关系并用Django框架渲染到前端页面。

【操作说明】

1、从虚拟机桌面“赛题/03_数据分析及可视化/ 01_探究单价、数量、总价和行政区域之间的关系/01代码”文件夹中创建相关项目工程代码。

2、完成任务后,在“赛题/03_数据分析及可视化/ 01_探究单价、数量、总价和行政区域之间的关系/02报告”文件夹中,完成答题报告保存。

任务二:探究产权性质、住宅类别、建筑结构、建筑类别与总价的关系

【任务说明】

根据模块一获取的长沙二手房信息数据,探究产权性质、住宅类别、建筑结构、建筑类别与总价的关系

【任务要求】

读取所需数据集后,对数据进行必要的清洗,绘制出产权性质、住宅类别、建筑结构、建筑类别与总价的关系并用Django框架渲染到前端页面。

【操作说明】

1、从桌面“赛题/03_数据分析及可视化/ 02_探究产权性质、住宅类别、建筑结构、建筑类别与总价的关系/01代码”文件夹中创建相关项目工程代码。

2、完成任务后,在“赛题/03_数据分析及可视化/ 02_探究产权性质、住宅类别、建筑结构、建筑类别与总价的关系/02报告”文件夹中,完成答题报告保存。

模块四:机器学习(15分)

任务一:模型建立(10分)

任务说明】

根据模块一获取的长沙二手房信息数据建立房价预测模型。

【任务要求】

1.读取长沙二手房信息数据;

2.提取合适的特征;

3.对数据进行编码等预处理;

4.划分训练集和测试集;

5.构建机器学习模型;

6.编写模型训练相关代码,完成模型训练;

7.将训练好的模型进行保存;

8.使用模型进行预测。

【操作说明】

1、从桌面“赛题/04_机器学习/01_模型建立/01代码”文件夹中创建项目工程文档。

2、完成任务后,在“赛题/04_机器学习/01_模型建立/02报告”文件夹中,完成答题报告保存。

任务二:情景模拟(5分)

【任务说明】

根据任务一建立的房价预测模型,进行情景模拟得出房屋总价。

【任务要求】

一家三口,孩子即将上学,大人城关区工作,需要购买房子,假设要求如下:

3室1厅1卫,面积大概再95㎡左右,学区房,东南,中装修,无电梯,个人产权,普通住宅,平层,钢混,城关,房龄。

【操作说明】

1、从桌面“赛题/04_机器学习/02_情景模拟/01代码”文件夹中创建项目工程文档。

2、完成任务后,在“赛题/04_机器学习/02_情景模拟/02报告”文件夹中,完成答题报告保存。

职业素养(5分)

【任务要求】

参赛选手操作规范、代码清晰易读、遵守考场纪律、收纳整理干净整洁、文明竞赛。

  • 10
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Play_Sai

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值