Python 解析 HTML 并提取表格数据存入数据库-CSDN博客

本文链接：https://blog.csdn.net/2501_90691033/article/details/146920555

```html Python 解析 HTML 并提取表格数据存入数据库

Python 解析 HTML 并提取表格数据存入数据库

在现代数据处理和分析中，从网页上提取结构化数据是一个常见的需求。HTML 表格是许多网站用来展示信息的一种常见方式。本文将介绍如何使用 Python 从 HTML 文件中解析表格，并将提取的数据存储到数据库中。

所需工具

BeautifulSoup: 用于解析 HTML 文档并提取数据。
sqlite3: Python 内置的轻量级数据库模块，适合小型项目。

步骤概述

加载 HTML 文件。
使用 BeautifulSoup 解析 HTML 并提取表格数据。
连接到 SQLite 数据库。
将提取的数据插入数据库。
关闭数据库连接。

代码实现


import sqlite3
from bs4 import BeautifulSoup

def extract_table_data(html_file):
    # 加载 HTML 文件
    with open(html_file, 'r', encoding='utf-8') as file:
        html_content = file.read()

    # 使用 BeautifulSoup 解析 HTML
    soup = BeautifulSoup(html_content, 'html.parser')
    table = soup.find('table')

    # 提取表格数据
    data = []
    rows = table.find_all('tr')
    for row in rows:
        cols = row.find_all('td')
        cols = [col.text.strip() for col in cols]
        if cols:
            data.append(cols)

    return data

def save_to_database(data, db_name='data.db'):
    # 连接到 SQLite 数据库
    conn = sqlite3.connect(db_name)
    cursor = conn.cursor()

    # 创建表（如果不存在）
    cursor.execute('''
        CREATE TABLE IF NOT EXISTS extracted_data (
            column1 TEXT,
            column2 TEXT,
            column3 TEXT
        )
    ''')

    # 插入数据
    cursor.executemany('INSERT INTO extracted_data VALUES (?, ?, ?)', data)

    # 提交更改并关闭连接
    conn.commit()
    conn.close()

if __name__ == '__main__':
    html_file = 'example.html'
    data = extract_table_data(html_file)
    save_to_database(data)
    print("数据已成功保存到数据库！")