python文件,我们使用这个包来处理python脚本。
这里的包没有的话请下载
pip install bs4
pip install panda
pip install lxml
from bs4 import BeautifulSoup
import pandas as pd
from lxml import etree
def ExcelFromHTML(path):
soup=BeautifulSoup(open(path,encoding='utf-8'),features='lxml') #features值可为lxml
tables = soup.find_all('table')
index = 0
for table in tables:
index=index+1
df = pd.read_html(table.prettify(), header=0)[0] # prettify():页面美化(整理成有格式的) #myTable04
df.to_excel("爬取表.xlsx",sheet_name="信息表{}".format(index) ,index=False,encoding="utf-8")
拉取活动Python Scope,并设置属性:
Library path:安装py的目录
Target:电脑操作系统位数
Version:电脑安装Python版本
获取脚本和运行方法,其中在Invoke Python Script的属性中我们传入参数path即可运行:
至此处理完成。