Python 解析 HTML 表格并转换为 Pandas DataFrame_pandas将html的table转为dataframe-CSDN博客

本文链接：https://blog.csdn.net/2501_91305817/article/details/146517744

```html

Python 解析 HTML 表格并转换为 Pandas DataFrame

在数据处理和分析中，我们经常需要从网页上抓取数据。HTML表格是一种常见的数据存储方式，而Pandas DataFrame则是Python中进行数据分析的常用工具。本文将介绍如何使用Python解析HTML表格，并将其转换为Pandas DataFrame。

所需库

为了完成这个任务，我们需要两个主要的Python库：BeautifulSoup和Pandas。BeautifulSoup是一个用于解析HTML和XML文档的库，而Pandas则提供了高性能、易用的数据结构和数据分析工具。

from bs4 import BeautifulSoup
import pandas as pd
import requests

获取HTML内容

首先，我们需要从目标网站获取HTML内容。这可以通过requests库来实现。以下是一个简单的例子：

url = 'http://example.com'
response = requests.get(url)
html_content = response.text

解析HTML表格

接下来，我们可以使用BeautifulSoup来解析HTML内容，并提取出表格数据。以下是一个简单的例子：

soup = BeautifulSoup(html_content, 'html.parser')
table = soup.find('table')
rows = table.find_all('tr')
data = []
for row in rows:
    cols = row.find_all('td')
    cols = [ele.text.strip() for ele in cols]
    data.append([ele for ele in cols if ele])