用python爬取链家的租房信息

最新推荐文章于 2024-08-13 21:38:27 发布

ALBDXV

最新推荐文章于 2024-08-13 21:38:27 发布

阅读量1.7k

点赞数 2

文章标签： python 正则表达式爬虫

本文链接：https://blog.csdn.net/ALBDXV/article/details/109375377

版权

本文记录了使用Python进行链家租房信息爬取的过程，涉及代理IP、网页解析及翻页等技术，成功获取到八百多条租房数据。

摘要由CSDN通过智能技术生成

用python爬取链家的租房信息（记录自己的第一个python代码），
里面涉及到的主要的点有：使用代理ip访问；读取网页；翻页等。欢迎交流

代码如下：

import requests
import urllib.request#urllib.request功能的了解
from bs4 import BeautifulSoup#BeautifulSoup功能了解
import bs4
import random
import re

##通过函数获取网页信息
def gethtml(url):
    #用代理IP访问
    proxy_support = urllib.request.ProxyHandler({
   'http':'119.6.144.73:81'})
    opener = urllib.request.build_opener(proxy_support)
    opener.addheaders = [('User-Agent','Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36 Edge/18.18363')]
    urllib.request.install_opener(opener)
    #读取网页信息
    #zf = urllib.request.urlopen('https://sh.lianjia.com/zufang/anting/rt200600000001l0/')