使用selenium工具写爬虫

需求

采集广东省政府的政策的文件

代码

使用selenium工具爬取

# coding: utf-8
import requests
import re
from selenium import webdriver
from selenium.webdriver import DesiredCapabilities
from lxml import etree
import datetime
from pymongo import MongoClient
import time


DB_IP = '127.0.0.1'
DB_PORT = 27017
DB_NAME = 'research'
DB_COL = 'policy'
client = MongoClient(host=DB_IP, port=DB_PORT)
db = client[DB_NAME]
col = db[DB_COL]

'''
广东省人民政府-----------爬虫
'''

base_urls =["http://zwgk.gd.gov.cn/747050516/",
           "http://zwgk.gd.gov.cn/661546078/",
           "http://zwgk.gd.gov.cn/006941127/",
           "http://zwgk.gd.gov.cn/00694108X/",
           "http://zwgk.gd.gov.cn/00694108X/",
           "http://zwgk.gd.gov.cn/754537285/",
           "http://zwgk.gd.gov.cn/006941186/",
           "http://zwgk.gd.gov.cn/759214127/",
           "http://zwgk.gd.gov.cn/006940263/",
           "http://zwgk.gd.gov.cn/786485539/",
           "http://zwgk.gd.gov.cn/006940212/",
           "http://zwgk.gd.gov.cn/006940247/",
           "http://zwgk.gd.gov.cn/006940335/",
           "http://zwgk.gd.gov.cn/00693981X/",
           "http://zwgk.gd.gov.cn/00694124X/",
           "http://zwgk.gd.gov.cn/758333079/",
           "http://zwgk.gd.gov.cn/006940124/",
           "http://zwgk.gd.gov.cn/006940095/",
           "http://zwgk.gd.gov.cn/006940298/",
           "http://zwgk.gd.gov.cn/00694001X/",
           "http://zwgk.gd.gov.cn/006941290/",
           "http://zwgk.gd.gov.cn/758336165/",
           "http://zwgk.gd.gov.cn/006940204/",
           "http://zwgk.gd.gov.cn/006940028/",
           "http://zwgk.gd.gov.cn/006940132/",
           "http://zwgk.gd.gov.cn/006940079/",
           "http://zwgk.gd.gov.cn/006939780/",
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值