python pandas提取网页的所有表格输出到csv中

最新推荐文章于 2022-11-28 22:11:50 发布

农民小飞侠

最新推荐文章于 2022-11-28 22:11:50 发布

阅读量985

点赞数 1

分类专栏： BeautifulSoup pandas

本文链接：https://blog.csdn.net/w5688414/article/details/108157938

版权

pandas 同时被 2 个专栏收录

7 篇文章 0 订阅

订阅专栏

BeautifulSoup

3 篇文章 0 订阅

订阅专栏

今天有人叫我把一个网页的所有的表格都提取出来，其实就是把所有的table标签都解析出来，我这里用pandas神器做了一下，发现出奇的简单：

import pandas as pd
import os
from selenium import webdriver
from bs4 import BeautifulSoup

browser = webdriver.Chrome()
document_each_year=browser.get(url)
    
html = browser.page_source
soup = BeautifulSoup(html, "lxml")

tables=soup.find_all('table')
for i in range(len(tables)):
    df_tables=pd.read_html(str(tables[i]))
    for j in range(len(df_tables)):
        df=df_tables[j]
        csv_name=os.path.join('table',str(i)+'_'+str(j)+'.csv')
        df.to_csv(csv_name,index=False,header=False)

核心代码就是read_html哈，是不是很简单，哈哈。

参考文献

[1]. Beautiful Soup 爬虫 + Pandas Dataframe，解析网页的 Table 表格数据. https://blog.csdn.net/Canhui_WANG/article/details/81269814

农民小飞侠

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
打赏
0
评论
python pandas提取网页的所有表格输出到csv中

今天有人叫我把一个网页的所有的表格都提取出来，其实就是把所有的table标签都解析出来，我这里用pandas神器做了一下，发现出奇的简单：import pandas as pdimport osfrom selenium import webdriverfrom bs4 import BeautifulSoupbrowser = webdriver.Chrome()document_each_year=browser.get(url) html = browser.page_so
复制链接

扫一扫