模块一:网络爬虫(20分)
任务一:获取网站数据
【任务说明】
数据是很多企业的生命,没有数据就没有一切。企业首先要解决的问题就是数据问题,那么获取数据的手段有很多种,其中爬虫就是性价比最高的一种。现有一个房产信息网站,网站上有大量城市关于房产信息等数据,请根据具体要求,编写爬虫实现数据抓取。
【任务要求】
以网站首页为入口,从该页面获取长沙二手房信息数据,抓取字段见表一。
表一:长沙二手房信息数据字段
| 字段 |
| 户型、建筑面积、单价、朝向、楼层、装修、小区、区域、建筑年代、有无电梯、产权性质、住宅类别、建筑结构、建筑类别、挂牌时间、房源评级、交易价值、居住品质、便利指数、物业服务、总价 |
现需要通过爬虫抓取相应数据,具体要求如下:
1.使用requests库向url发送请求;
2.使BeautifulSoup或Xpath从响应内容中解析数据;
3.从首页中获取视频分类名和各类别链接;
4.向各类别链接发送请求,从响应内容中获取视频具体的播放、评论、点赞等数据;
5.将抓取的数据存入“赛题/01_网络爬虫/01_获取网站数据/01数据”文件夹中CSV文件中;
6.将抓取的数据存入MySQL数据库中;
7.绕过网站的反爬虫检测;
【操作说明】
1、从桌面“赛题/01_网络爬虫/01_获取网站数据/02代码”文件夹中创建相关项目工程代码。
2、完成任务后,在“赛题/01_网络爬虫/01_获取网站数据/03报告”文件夹中,完成答题报告保存。

最低0.47元/天 解锁文章
4170

被折叠的 条评论
为什么被折叠?



