简单的一个爬虫抓取案例:以链家网租房信息为例

本文介绍了使用Python的requests和BeautifulSoup库爬取链家网北京租房信息的过程,包括安装库、抓取和解析页面、数据清洗及存入数据表。通过设置HTTP头部和轮询页面码避免IP被封,提取关键信息如价格、小区、地址等。
摘要由CSDN通过智能技术生成

      我们用到的数据有时候不是现成的,需要从网上爬取。python提供了很好的爬虫包,有requests、BeautifulSoup.  scrapy。以前有接触过爬虫,但没有完整的实现一个案例,今天在七月在线上看到了一个寒小阳老师关于数据获取和处理的视频,就想着拿个例子来练练手。

1、首先安装需要用到的包 requests 和 BeautifulSoup。Time库,负责设置每次抓取的休息时间。

安装好后将这些库导入进来

import requests
import time
from bs4 import BeautifulSoup

2、抓取和解析页面

链家网的租房列表页面共有100个,URL结构为:https://bj.lianjia.com/zufang/pg3/

  • bj表示城市 
  • zufang 是频道名称
  • pg3是页面码   

我们要抓取的是北京的租房频道,所以前面的部分不会变,属于固定部分,后面的页面码需要在1-100间变化,属于可变部分。将URL分为两部分,前面的固定部分赋值给url,后面的可变部分使用for循环遍历页面。 

#设置列表页的固定部分
url = "https://bj.lianjia.com/zufang/"
#设置页面页的可变部分
page = ("pg")

为了防止被封ip,所以我们需要

  • 5
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值