Python：获取html表格数据、html表格保存Excel

CY呵

已于 2022-06-20 18:43:27 修改

阅读量2.9k

点赞数 3

分类专栏：实用python脚本文章标签： python html 开发语言

于 2022-06-20 18:42:43 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_37586703/article/details/125378465

版权

# !/usr/bin/env python
# -*-coding:utf-8 -*-
import os.path
import bs4,shutil,time
from pandas.core.frame import DataFrame

def get_html_tabledata(htmlpath,tableindex: int = 0):
    """
    html文件,获取表格数据
    :param htmlpath: html文件路径
    :param tableindex: table索引，int，默认为0
    :return:字典列表
    """
    with open(htmlpath, 'r+',encoding='UTF-8') as f:
        s = f.read()
    wb = s.strip().replace('\ufeff', '')
    soup = bs4.BeautifulSoup(wb, 'lxml')  # 解析html

    # 获取指定表格的数据
    table=soup.findAll("table")[tableindex] # 读取第二个表格
    table_rows = table.findAll("tr")  # 获得表格中行的集合
    # 获取表格第一行作为字典keykey
    keys = [table_rows[0].findAll(['th', 'td'])[i].getText().strip() for i in range(len(table_rows[0].findAll(['th', 'td']))) ]
    tabledata = []
    for table_row in table_rows[1:]:
        row = table_row.f

最低0.47元/天解锁文章

博客等级

码龄8年

40
原创

82
点赞

421
收藏

40
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

最新评论

Java：txt文件读取写入
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用更多的站内链接；(2)增加条理清晰的目录；(3)增加除了各种控件外，文章正文的字数。
Java：获取指定时间/指定时间格式
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性；(2)增加条理清晰的目录；(3)使用更多的站内链接。
Java：获取目录下文件路径
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加条理清晰的目录；(2)增加除了各种控件外，文章正文的字数；(3)提升标题与正文的相关性。
java：获取图片base64位编码
CSDN-Ada助手: Java里的ArrayList和Vector的区别是什么呢？
Python:email生成测试报告、发送邮件
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性；(2)增加除了各种控件外，文章正文的字数；(3)使用更多的站内链接。

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。