python链家网爬虫_python3编写爬虫程序获取链家网租房信息

最新推荐文章于 2024-08-13 21:38:27 发布

weixin_39878745

最新推荐文章于 2024-08-13 21:38:27 发布

阅读量486

点赞数

文章标签： python链家网爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39878745/article/details/113993581

版权

本文介绍了如何使用Python3编写爬虫程序，通过模拟浏览器抓取链家网北京租房页面的HTML数据，然后利用BeautifulSoup进行数据清洗，最后将清洗后的数据存储到Excel文件中。

摘要由CSDN通过智能技术生成

程序设计思路

爬虫程序的设计思路大同小异，下面是我的设计思路

1.模拟浏览器抓取数据

2.清洗数据

3.存入数据库或者Excel

4.数据分析与处理

需要的类库

requests 用于模拟浏览器向网站发送请求

BeautifulSoup 用于将抓取的html数据进行清洗

html5lib 用于BeautifulSoup对html的解析使用

openpyxl 用于将清洗过的数据存入Excel

抓取数据

c8f5d8d615db?from=timeline

链家数据截图

通过对network的分析没有找到链家通过json传递的数据，这时候我们的策略就是读取网页分析网页。

使用python当中的requests模块模拟浏览器访问的过程获取html信息。

这里需要注意的是，当我们需要requests模拟浏览器去访问链家网站的时候在headers里面我们要模拟完整的信息。

c8f5d8d615db?from=timeline

headers

模拟完整信息的目的是为了保证防止链家的服务器误以为我们是程序在抓取网站的信息而阻止我们抓取新信息。

代码片段

headers = {

'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',

'Accept-Encoding':'gzip, deflate, sdch',

'Accept-Language':'zh-CN,zh;q=0.8',

'Connection':'keep-alive',

'Cookie':'lianjia_uuid=9615f3ee-0865-4a66-b674-b94b64f709dc; logger_session=d205696d584e350975cf1d649f944f4b; select_city=110000; all-lj=144beda729446a2e2a6860f39454058b; _smt_uid=5871c8fd.2beaddb7; CNZZDATA1253477573=329766555-1483847667-http%253A%252F%252Fbj.fang.lianjia.com%252F%7C1483851778; CNZZDATA1254525948=58093639-1483848060-http%253A%252F%252Fbj.fang.lianjia.com%252F%7C1483853460; CNZZDATA1255633284=1668427390-1483847993-http%253A%252F%252Fbj.fang.lianjia.com%252F%7C1483851644; CNZZDATA1255604082=1041799577-1483850582-http%253A%252F%252Fbj.fang.li

最低0.47元/天解锁文章

weixin_39878745

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。