此爬虫使用了以下库:
selenium + ChromeDriver
beautifulsoup
requests
具体安装方法请自行百度,这里不过多赘述
爬虫主要分为两个模块
一个使用selenium获得网页内容,再使用beautifulsoup提取出地址信息.
另一个使用requests下载xls文件
代码如下:
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from bs4 import BeautifulSoup
import requests_download
import time
files = {
}#文件名:链接
req_url = 'http://www.stats.gov.cn/tjsj/pcsj/rkpc/6rp/lefte.htm'
chrome_options = Options()
chrome_options.add_argument