背景:
有一个需求,需要把某个社区网站的房源相关信息爬取下来,但是该社区对提交的表单数据使用js进行了加密,
纠结了几天,没能搞明白加密的逻辑,所以想到使用selenium操作chrome来遍历这个社区页面,然后正则匹配下所需数据
具体代码:
from selenium import webdriver
from openpyxl import Workbook
from bs4 import BeautifulSoup
import re
import time
wb=Workbook()
#创建excel表用来保存抓取的数据
ws=wb.worksheets[0]
ws.title='房源信息表'
title=['大区','楼栋编码','楼栋名称','楼栋地址']
ws.append(title)
#文件保存位置
file='E:\\pyhton\\爬虫\\1112\\data.xlsx'
#生成一个chrome对象用其方法操作chrom
driver=webdriver.Chrome()
url='http://www.szzlb.gov.cn/LEAPV5/LEAP/UnitModule/czww_search/buildingsearch.html'
driver.get(url)</