Python BigQuery DataFrames 开源项目教程

最新推荐文章于 2024-09-03 08:30:40 发布

莫皎奕

最新推荐文章于 2024-09-03 08:30:40 发布

阅读量350

点赞数 5

本文链接：https://blog.csdn.net/gitblog_01058/article/details/141843135

版权

Python BigQuery DataFrames 开源项目教程

python-bigquery-dataframesBigQuery DataFrames项目地址:https://gitcode.com/gh_mirrors/py/python-bigquery-dataframes

项目介绍

python-bigquery-dataframes 是一个开源项目，旨在为 Google BigQuery 提供一个类似于 Pandas 的 DataFrame 接口。通过这个项目，用户可以更方便地在 BigQuery 上进行数据分析和处理，同时利用 Python 的强大生态系统。

项目快速启动

安装

首先，确保你已经安装了 google-cloud-bigquery 和 pandas 库。如果没有安装，可以使用以下命令进行安装：

pip install google-cloud-bigquery pandas

连接到 BigQuery

以下是一个简单的示例，展示如何连接到 BigQuery 并读取数据到一个 DataFrame：

from google.cloud import bigquery
import pandas as pd

# 初始化 BigQuery 客户端
client = bigquery.Client()

# 定义查询
query = """
    SELECT name, SUM(number) as total_number
    FROM `bigquery-public-data.usa_names.usa_1910_2013`
    WHERE state = 'TX'
    GROUP BY name
    ORDER BY total_number DESC
    LIMIT 10
"""

# 执行查询并将结果转换为 DataFrame
query_job = client.query(query)
df = query_job.to_dataframe()

# 打印 DataFrame
print(df)

应用案例和最佳实践

应用案例

假设你是一家电商公司的数据分析师，你需要分析过去一年的销售数据。你可以使用 python-bigquery-dataframes 来快速获取和分析这些数据：

from google.cloud import bigquery
import pandas as pd

client = bigquery.Client()

query = """
    SELECT product_id, SUM(quantity) as total_quantity, SUM(revenue) as total_revenue
    FROM `your_project.your_dataset.sales_data`
    WHERE DATE_TRUNC(date, YEAR) = '2022-01-01'
    GROUP BY product_id
    ORDER BY total_revenue DESC
"""

query_job = client.query(query)
df = query_job.to_dataframe()

print(df)