需求
采集广东省政府的政策的文件
代码
使用selenium工具爬取
# coding: utf-8
import requests
import re
from selenium import webdriver
from selenium.webdriver import DesiredCapabilities
from lxml import etree
import datetime
from pymongo import MongoClient
import time
DB_IP = '127.0.0.1'
DB_PORT = 27017
DB_NAME = 'research'
DB_COL = 'policy'
client = MongoClient(host=DB_IP, port=DB_PORT)
db = client[DB_NAME]
col = db[DB_COL]
'''
广东省人民政府-----------爬虫
'''
base_urls =["http://zwgk.gd.gov.cn/747050516/",
"http://zwgk.gd.gov.cn/661546078/",
"http://zwgk.gd.gov.cn/006941127/",
"http://zwgk.gd.gov.cn/00694108X/",
"http://zwgk.gd.gov.cn/00694108X/",
"http://zwgk.gd.gov.cn/754537285/",
"http://zwgk.gd.gov.cn/006941186/",
"http://zwgk.gd.gov.cn/759214127/",
"http://zwgk.gd.gov.cn/006940263/",
"http://zwgk.gd.gov.cn/786485539/",
"http://zwgk.gd.gov.cn/006940212/",
"http://zwgk.gd.gov.cn/006940247/",
"http://zwgk.gd.gov.cn/006940335/",
"http://zwgk.gd.gov.cn/00693981X/",
"http://zwgk.gd.gov.cn/00694124X/",
"http://zwgk.gd.gov.cn/758333079/",
"http://zwgk.gd.gov.cn/006940124/",
"http://zwgk.gd.gov.cn/006940095/",
"http://zwgk.gd.gov.cn/006940298/",
"http://zwgk.gd.gov.cn/00694001X/",
"http://zwgk.gd.gov.cn/006941290/",
"http://zwgk.gd.gov.cn/758336165/",
"http://zwgk.gd.gov.cn/006940204/",
"http://zwgk.gd.gov.cn/006940028/",
"http://zwgk.gd.gov.cn/006940132/",
"http://zwgk.gd.gov.cn/006940079/",
"http://zwgk.gd.gov.cn/006939780/",