用python爬取链家的租房信息(记录自己的第一个python代码),
里面涉及到的主要的点有:使用代理ip访问;读取网页;翻页等。欢迎交流
代码如下:
import requests
import urllib.request#urllib.request功能的了解
from bs4 import BeautifulSoup#BeautifulSoup功能了解
import bs4
import random
import re
##通过函数获取网页信息
def gethtml(url):
#用代理IP访问
proxy_support = urllib.request.ProxyHandler({
'http':'119.6.144.73:81'})
opener = urllib.request.build_opener(proxy_support)
opener.addheaders = [('User-Agent','Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36 Edge/18.18363')]
urllib.request.install_opener(opener)
#读取网页信息
#zf = urllib.request.urlopen('https://sh.lianjia.com/zufang/anting/rt200600000001l0/')