【Python程序开发】湖南省职业院校技能大赛python程序开发赛项样题五

模块一:网络爬虫(20分)

任务一:获取网站数据

【任务说明】

数据是很多企业的生命,没有数据就没有一切。企业首先要解决的问题就是数据问题,那么获取数据的手段有很多种,其中爬虫就是性价比最高的一种。现有一个房产信息网站,网站上有大量城市关于房产信息等数据,请根据具体要求,编写爬虫实现数据抓取。

【任务要求】

以网站首页为入口,从该页面获取长沙二手房信息数据,抓取字段见表一。

表一:长沙二手房信息数据字段

字段

户型、建筑面积、单价、朝向、楼层、装修、小区、区域、建筑年代、有无电梯、产权性质、住宅类别、建筑结构、建筑类别、挂牌时间、房源评级、交易价值、居住品质、便利指数、物业服务、总价

现需要通过爬虫抓取相应数据,具体要求如下:

1.使用requests库向url发送请求;

2.使BeautifulSoup或Xpath从响应内容中解析数据;

3.从首页中获取视频分类名和各类别链接;

4.向各类别链接发送请求,从响应内容中获取视频具体的播放、评论、点赞等数据;

5.将抓取的数据存入“赛题/01_网络爬虫/01_获取网站数据/01数据”文件夹中CSV文件中;

6.将抓取的数据存入MySQL数据库中;

7.绕过网站的反爬虫检测;

【操作说明】

1、从桌面“赛题/01_网络爬虫/01_获取网站数据/02代码”文件夹中创建相关项目工程代码。

2、完成任务后,在“赛题/01_网络爬虫/01_获取网站数据/03报告”文件夹中,完成答题报告保存。

模块二:数据清洗(30分)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值