python链家网爬虫_python3编写爬虫程序获取链家网租房信息

本文介绍了如何使用Python3编写爬虫程序,通过模拟浏览器抓取链家网北京租房页面的HTML数据,然后利用BeautifulSoup进行数据清洗,最后将清洗后的数据存储到Excel文件中。
摘要由CSDN通过智能技术生成

程序设计思路

爬虫程序的设计思路大同小异,下面是我的设计思路

1.模拟浏览器抓取数据

2.清洗数据

3.存入数据库或者Excel

4.数据分析与处理

需要的类库

requests 用于模拟浏览器向网站发送请求

BeautifulSoup 用于将抓取的html数据进行清洗

html5lib 用于BeautifulSoup对html的解析使用

openpyxl 用于将清洗过的数据存入Excel

抓取数据

c8f5d8d615db?from=timeline

链家数据截图

通过对network的分析没有找到链家通过json传递的数据,这时候我们的策略就是读取网页分析网页。

使用python当中的requests模块模拟浏览器访问的过程获取html信息。

这里需要注意的是,当我们需要requests模拟浏览器去访问链家网站的时候在headers里面我们要模拟完整的信息。

c8f5d8d615db?from=timeline

headers

模拟完整信息的目的是为了保证防止链家的服务器误以为我们是程序在抓取网站的信息而阻止我们抓取新信息。

代码片段

headers = {

'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',

'Accept-Encoding':'gzip, deflate, sdch',

'Accept-Language':'zh-CN,zh;q=0.8',

'Connection':'keep-alive',

'Cookie':'lianjia_uuid=9615f3ee-0865-4a66-b674-b94b64f709dc; logger_session=d205696d584e350975cf1d649f944f4b; select_city=110000; all-lj=144beda729446a2e2a6860f39454058b; _smt_uid=5871c8fd.2beaddb7; CNZZDATA1253477573=329766555-1483847667-http%253A%252F%252Fbj.fang.lianjia.com%252F%7C1483851778; CNZZDATA1254525948=58093639-1483848060-http%253A%252F%252Fbj.fang.lianjia.com%252F%7C1483853460; CNZZDATA1255633284=1668427390-1483847993-http%253A%252F%252Fbj.fang.lianjia.com%252F%7C1483851644; CNZZDATA1255604082=1041799577-1483850582-http%253A%252F%252Fbj.fang.li

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值