Python提取表格:解放你的数据处理效率!
在数据处理中,表格是最常用的形式之一。然而,手动提取表格数据却非常耗时且容易出错。在 Python 中,我们可以利用一些强大的库来轻松提取表格。本文将介绍三个常用的库:pandas、beautifulsoup 和 tabula-py。
pandas:高效数据处理工具
pandas 简介
pandas 是一个强大的数据分析工具,它可以处理各种数据格式(例如 CSV、Excel、SQL 数据库和 HTML 网页等)。在 pandas 中,数据被转换为 DataFrame 和 Series 的对象,这两个对象提供了一种方便的方式来操作数据集。pandas 具有灵活性和强大的性能,是 Python 数据处理领域不可或缺的工具。
提取 HTML 表格
为了提取 HTML 表格,我们可以使用 pandas.read_html
函数。如下所示:
import pandas as pd
url = 'https://en.wikipedia.org/wiki/List_of_countries_by_GDP_(nominal)'
tables = pd.read_html(url)
print(tables[0]) # tables 为一个列表,[0] 代表第一个表格
这个函数会返回一个包含 DataFrame 的列表,其中每个 DataFrame 对象都对应 HTML 页面的一个表格。这里的例子是从维基百科上获取了一个国家 GDP 的列表。tables[0]
就是第一个表格中包含的数据。我们还可以利用 to_csv
函数将 DataFrame 对象保存为 CSV 文件。
df = tables[0