python正则表达式爬取链家租房信息
网址: https://bj.lianjia.com/zufang/
这一次爬虫主要也是使用了正则表达式,具体的流程框架可以参照我的另一篇博
使用正则表达式爬虫抓取猫眼电影排行Top100
其中找正则表达式一定要找准,一定要找到唯一匹配的正则表达式。
还有爬取链家网必须要添加headers
具体代码
import requests
import re
from requests.exceptions import RequestException
import json
import csv
from time import sleep
# 抓取单页内容
def get_one_page(url):
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) '
'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'
}
try:
response = requests.get(url,headers=headers