初接触python爬虫,跟着视频学习一些很基础的内容,小小尝试了一下,如有错误感谢指正。
库和方法介绍:
(1)requests
requests是python的工具包,用于发出请求,,是用来获取网站数据。Requests 是用Python语言编写,基于 urllib,采用 Apache2 Licensed 开源协议的 HTTP 库。它比 urllib 更加方便,可以节约我们大量的工作,完全满足 HTTP 测试需求。本次爬取代码使用的其中的get方法,最通常的方法是通过r=request.get(url)构造一个向服务器请求资源的url对象。这个对象是Request库内部生成的。这时候返回的是一个包含服务器资源的Response对象。
(2)pandas

本文介绍了使用Python爬虫技术从链家网抓取二手房数据的过程,涉及requests、pandas、Lxml等库。通过观察网址结构、确定爬取内容、编写代码,提取房源标题、位置、总价和单价等信息,最终将数据存储为CSV文件。爬取多页数据只需添加for循环。
最低0.47元/天 解锁文章
176

被折叠的 条评论
为什么被折叠?



