```html
Python 解析 HTML 表格并转换为 Pandas DataFrame
在数据处理和分析中,我们经常需要从网页上抓取数据。HTML表格是一种常见的数据存储方式,而Pandas DataFrame则是Python中进行数据分析的常用工具。本文将介绍如何使用Python解析HTML表格,并将其转换为Pandas DataFrame。
所需库
为了完成这个任务,我们需要两个主要的Python库:BeautifulSoup和Pandas。BeautifulSoup是一个用于解析HTML和XML文档的库,而Pandas则提供了高性能、易用的数据结构和数据分析工具。
from bs4 import BeautifulSoup
import pandas as pd
import requests
获取HTML内容
首先,我们需要从目标网站获取HTML内容。这可以通过requests库来实现。以下是一个简单的例子:
url = 'http://example.com'
response = requests.get(url)
html_content = response.text
解析HTML表格
接下来,我们可以使用BeautifulSoup来解析HTML内容,并提取出表格数据。以下是一个简单的例子:
soup = BeautifulSoup(html_content, 'html.parser')
table = soup.find('table')
rows = table.find_all('tr')
data = []
for row in rows:
cols = row.find_all('td')
cols = [ele.text.strip() for ele in cols]
data.append([ele for ele in cols if ele])
转换为Pandas DataFrame
最后,我们可以将提取出的数据转换为Pandas DataFrame。以下是一个简单的例子:
df = pd.DataFrame(data)
print(df)
以上就是使用Python解析HTML表格并转换为Pandas DataFrame的全过程。通过这种方式,我们可以方便地从网页上抓取数据,并进行进一步的分析和处理。
```