爬取链家网站的北京租房信息

本文讲述了如何爬取链家网站上北京地区的租房信息,包括获取租房页面链接和提取页面数据。通过分步骤的代码实现,详细展示了整个过程,并提供了注意事项,如使用time.sleep()减少访问频率,将已获取链接保存本地以避免重复访问,以及如何处理意外中断后的恢复策略。
摘要由CSDN通过智能技术生成

本来准备这个暑假好好复习,但学校安排暑期实践,既然学校安排这个,而且我自己也觉得需要提高一下自己的能力,所以静下心来做点事吧。我们要做到项目是分析北京地区的租房的信息分析。

我们需要做的是爬取链家网站上北京地区的租房信息。链家作为国内比较出名的房地产中介公司,发布的房地产租房信息还是不叫权威的。

我们需要做的分为两步:找到各个租房页面的链接,爬取每个租房页面的数据。

第一步找到每个租房页面的链接,北京地区的租房页面的初始链接为https://bj.lianjia.com/zufang/pg1/,下一页的地址就是把后面的pg1改成pg2,以此后推,一共有100个页面。

具体实现代码如下:

    for i in range(1,101):
        firsturl=r"https://bj.lianjia.com/zufang/pg%d/"%i
#        list.append(firsturl)
        title,l=frist(firsturl)
        

我们需要在这个页面上爬取每个具体房屋页面的URL地址。

具体实现代码如下:

def frist(firsturl):
    time.sleep(3)
    title=[]
    l=[]
    html=requests.get(firsturl)
    #html可能乱码,soup会转码
    soup = BeautifulSoup(html.content)
    for link in soup.find_all('h2'):
        if len(str(link))>84:
    # 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值