Python爬虫自动化办工实战案例--借助xlwings实现excel调用Python爬虫

最新推荐文章于 2022-09-23 22:40:20 发布

kris-luo

最新推荐文章于 2022-09-23 22:40:20 发布

阅读量838

点赞数 1

分类专栏： Python爬虫文章标签：大数据 python excel

本文链接：https://blog.csdn.net/master_gogogo/article/details/108711994

版权

Python爬虫专栏收录该内容

6 篇文章 3 订阅

订阅专栏

Python爬虫自动化办工实战案例

----借助xlwings实现excel调用Python爬虫

前言

本案例将实现excel集成用户自定义Python函数（xlwings UDFs），并从excel中通过调用函数，轻松爬取对应微博博文的转评赞数据。

1. excel安装xlwings

首先在命令行窗口，卸载掉原来可能存在的xlwings

pip uninstall xlwings

conda uninstall xlwings

在命令行窗口下载并安装xlwings

pip install xlwings

安装excel插件

xlwings addin install

关于xlwings作者就不再过多说明，简短来说，xlwings插件可以让我们在excel中轻松运行Python程序。

2. excel设置

打开任意一个excel表单，选择“文件”–>“选项”：自定义功能区，选择开发工具–>“信任中心”–>“信任中心设置”–>“宏设置”：启用所有宏+信任对VBA工程对象模型的访问。

3. 建立excel表单

在一个适合的地方（例如桌面），新建一个excel表单，另存为.xlsm文件。
建立一个后缀为.py的Python文件用于我们编写Python代码。
在这里插入图片描述

4. 设置.xlsm文件

在这里插入图片描述
设置xlwings选项卡：Interpreter中填写pythonw.exe的路径，PYTHONPATH填写要调用的python文件所在文件夹，UDF Modules填写.py文件的名字（不带后缀），勾选RunPython: Use UDF Server。
当我们在excel中借助xlwings插件调用Python程序时，插件会借助PYTHONPATH提供的路径，找到UDF Modules中的文件，进行调用。

5. 编写Python爬虫程序

打开我们的weibodata.py，稍微改写下我们上一个案例中的程序，修改成getpost(url)函数，用于获取转发数。

import xlwings as xw
import bs4     # 网页解析，获得数据
import re      # 正则表达式，进行文字匹配
import urllib.request,urllib.error    # 指定URL，获取网页数据
from bs4 import BeautifulSoup
@xw.func
def getpost(weibo_url):
    head = {  # 模拟浏览器头部信息
        'user-agent': 'Mozilla/5.0 (iPhone; CPU iPhone OS 13_2_3 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.0.3 Mobile/15E148 Safari/604.1'
    }
    request = urllib.request.Request(weibo_url, headers=head)
    html = ''
    try:
        response = urllib.request.urlopen(request)
        html = response.read().decode('utf-8')
    except urllib.error.URLError as e:
        if hasattr(e, 'code'):
            print(e.code)
        if hasattr(e, 'reason'):
            print(e.reason)
    soup = BeautifulSoup(html, 'html.parser')
    item = soup.find_all('script')
    item = str(item)
    findrepost = re.compile(r'"reposts_count": (.*?),')
    repo = re.findall(findrepost, item)
    return repo