一、加载三方包
import urllib.request,urllib.error #制定URL,获取网页数据
from bs4 import BeautifulSoup #网页解析
import re #正则表达式
import xlwt #进行Excel操作
二、定义主函数
def main():
baseurl = 'https://sz.lianjia.com/zufang/longhuaqu/pg'#第一个页面的网址
datalist = getdata(baseurl)#爬取和解析的函数
savepath = '深圳龙华区租房.xls'#给结果取个名字
savedata(datalist,savepath)##3.保存数据的函数
三、定义爬取和解析的函数
3.1 正则化
findTarget = re.compile(r'target="_blank">(.*?)',re.S)#r包涵所有的特殊符号
findI = re.compile(r'/(.*?)/',re.S) #re.S换行符包涵在字符串中
findHide = re.compile(r'/.*/.*/(.*?)
findApartment = re.compile(r'(.*?)')
findBrand = re.compile(r'(.*?)<