Python爬虫入门教程03：二手房数据爬取

最新推荐文章于 2024-10-30 13:16:11 发布

2401_84010302

最新推荐文章于 2024-10-30 13:16:11 发布

阅读量700

点赞数 23

分类专栏：程序员文章标签： python 爬虫开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_84010302/article/details/137489653

版权

这篇博客介绍了如何使用Python进行二手房数据的爬取，包括设置请求头、解析HTML数据、处理异常以及保存数据到CSV文件。通过解析网页数据，提取标题、地址、小区、房价等关键信息，并演示了如何处理广告干扰数据。最后提到了多页爬取的思路，并分享了个人的编程学习经历。

摘要由CSDN通过智能技术生成

url = ‘https://cs.lianjia.com/ershoufang/’

headers = {

‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36’

}

response = requests.get(url=url, headers=headers)

print(response.text)

如果你不知道，返回的数据中是否有你想要的内容，你有复制网页的内容，在pycharm的输出结果中进行搜索查看。

在这里插入图片描述

三、解析数据

既然网站是静态网页数据，那么就可以直接在开发者工具中 Elements 查看数据在哪

在这里插入图片描述

如上图所示，相关的数据内容都包含在 li 标签里面。通过 parsel 解析库，进行解析提取数据就可以了。

selector = parsel.Selector(response.text)

lis = selector.css(

最低0.47元/天解锁文章

关注

23
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。