【Python程序开发】湖南省职业院校技能大赛python程序开发赛项样题五

原创

已于 2024-10-26 16:28:40 修改 · 1k 阅读

·

20

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#python #开发语言 #数据分析 #网络爬虫 #机器学习

于 2024-10-26 10:17:16 首次发布

模块一：网络爬虫（20分）

任务一：获取网站数据

【任务说明】

数据是很多企业的生命，没有数据就没有一切。企业首先要解决的问题就是数据问题，那么获取数据的手段有很多种，其中爬虫就是性价比最高的一种。现有一个房产信息网站，网站上有大量城市关于房产信息等数据，请根据具体要求，编写爬虫实现数据抓取。

【任务要求】

以网站首页为入口，从该页面获取长沙二手房信息数据，抓取字段见表一。

表一：长沙二手房信息数据字段

字段

户型、建筑面积、单价、朝向、楼层、装修、小区、区域、建筑年代、有无电梯、产权性质、住宅类别、建筑结构、建筑类别、挂牌时间、房源评级、交易价值、居住品质、便利指数、物业服务、总价

现需要通过爬虫抓取相应数据，具体要求如下：

1.使用requests库向url发送请求；

2.使BeautifulSoup或Xpath从响应内容中解析数据；

3.从首页中获取视频分类名和各类别链接；

4.向各类别链接发送请求，从响应内容中获取视频具体的播放、评论、点赞等数据；

5.将抓取的数据存入“赛题/01_网络爬虫/01_获取网站数据/01数据”文件夹中CSV文件中；

6.将抓取的数据存入MySQL数据库中；

7.绕过网站的反爬虫检测；

【操作说明】

1、从桌面“赛题/01_网络爬虫/01_获取网站数据/02代码”文件夹中创建相关项目工程代码。

2、完成任务后，在“赛题/01_网络爬虫/01_获取网站数据/03报告”文件夹中，完成答题报告保存。

模块二：数据清洗（30分）

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。