python 爬虫工具

AI算法网奇

于 2019-04-20 13:33:55 发布

阅读量2.3k

点赞数

分类专栏： python宝典文章标签： python 爬虫

本文链接：https://blog.csdn.net/jacke121/article/details/89416326

版权

python宝典专栏收录该内容

1012 篇文章 369 订阅 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了如何利用Python的requests_html库进行网络爬虫，包括设置 chromedriver 的下载和环境变量配置，以实现更高效的网页内容抓取。

摘要由CSDN通过智能技术生成

requests_html

chromedriver下载，下载后添加到环境变量。

http://npm.taobao.org/mirrors/chromedriver/

# -*- coding:utf-8 -*-

import time

import xlrd
import selenium
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from time import sleep
from lxml import etree
from xlutils.copy import copy

def get_excel_data(sheetName, row, col=0):

    excelDir = './data/单位名称.xls'
    # 创建工作薄
    workBook = xlrd.open_workbook(excelDir)
    # 选择工作表
    workSheet = workBook.sheet_by_name(sheetName)
    return workSheet.cell(row,