1、导入所需要的库
import pandas as pd
import requests
from bs4 import BeautifulSoup
2、创建一个空列表,用于后续将获取的表格存储至新创建的列表中
data = [] #或者data=pd.DataFrame()
3、从txt文件中获取url_list
url_list=[]
with open('URL列表.txt','r') as file:
for line in file
url = line.strip() #清除前后空字符串
url_list.append(url) #将处理完毕的url添加至url_list
4、使用url_list中的url发送http请求,然后使用BeafaultSoup解析,在解析后的数据中找到目标表格,再使用pandas库的read_html函数解析表格,最后保存输出为csv文件
for url in url_list:
response = requests.get(url) #使用requests函数get()方法发送http请求
soup = BeafaultSoup(response.content,'html.parser') #使用BeafaultSoup解析刚刚获取到的html代码
table = soup.find('table') #找到目标表格并提取数据
table_data=pd.read_html(str(table))[0] #使用pandas的read__html函数解析表格
data = data.append(table_data) #将提取的数据添加到数据集中
data.to_csv('output.csv',index=False) #将数据集保存为csv文件