我们用到的数据有时候不是现成的,需要从网上爬取。python提供了很好的爬虫包,有requests、BeautifulSoup. scrapy。以前有接触过爬虫,但没有完整的实现一个案例,今天在七月在线上看到了一个寒小阳老师关于数据获取和处理的视频,就想着拿个例子来练练手。
1、首先安装需要用到的包 requests 和 BeautifulSoup。Time库,负责设置每次抓取的休息时间。
安装好后将这些库导入进来
import requests
import time
from bs4 import BeautifulSoup
2、抓取和解析页面
链家网的租房列表页面共有100个,URL结构为:https://bj.lianjia.com/zufang/pg3/
- bj表示城市
- zufang 是频道名称
- pg3是页面码
我们要抓取的是北京的租房频道,所以前面的部分不会变,属于固定部分,后面的页面码需要在1-100间变化,属于可变部分。将URL分为两部分,前面的固定部分赋值给url,后面的可变部分使用for循环遍历页面。
#设置列表页的固定部分
url = "https://bj.lianjia.com/zufang/"
#设置页面页的可变部分
page = ("pg")
为了防止被封ip,所以我们需要