[掌握Google BigQuery：从入门到实践的综合指南]

最新推荐文章于 2025-03-22 04:28:08 发布

gasjtak

最新推荐文章于 2025-03-22 04:28:08 发布

阅读量584

点赞数 3

文章标签： python

本文链接：https://blog.csdn.net/gasjtak/article/details/144307260

版权

掌握Google BigQuery：从入门到实践的综合指南

Google BigQuery 是 Google Cloud Platform 中一个无服务器且具有成本效益的企业数据仓库，它可以跨云工作并随着数据的增长而扩展。在大数据分析的时代，BigQuery 提供了简单而强大的方式来处理和分析大量数据。本篇文章将带你全面了解如何使用 BigQuery，尤其是如何加载查询并处理每行一个文档的数据结构。

引言

本篇文章旨在指导读者使用 Google BigQuery 来有效地处理和分析数据。无论你是初学者还是数据专家，这篇文章都将为你提供实用的见解和实用的代码示例，帮助你更好地利用 BigQuery 的强大功能。

主要内容

什么是 BigQuery？

Google BigQuery 是一款无服务器的数据仓库，专为灵活扩展和高效数据分析设计。其无与伦比的查询性能和与其他 Google Cloud 工具的无缝集成，使得 BigQuery 成为数据科学家的绝佳选择。

如何使用 BigQuery 加载数据？

让我们看看如何使用 BigQueryLoader 从 BigQuery 中加载数据，并将查询结果转换为每行一个文档的形式。在此示例中，我们将加载一个包含 DNA 序列信息的虚拟表。

基本用法

我们首先需要安装必要的库：

%pip install --upgrade --quiet langchain-google-community[bigquery]

然后，我们编写 Python 代码来加载数据：

from langchain_google_community import BigQueryLoader

BASE_QUERY = """
SELECT
  id,
  dna_sequence,
  organism
FROM (
  SELECT
    ARRAY (
    SELECT
      AS STRUCT 1 AS id, "ATTCGA" AS dna_sequence, "Lokiarchaeum sp. (strain GC14_75)." AS organism
    UNION ALL
    SELECT
      AS STRUCT 2 AS id, "AGGCGA" AS dna_sequence, "Heimdallarchaeota archaeon (strain LC_2)." AS organism
    UNION ALL
    SELECT
      AS STRUCT 3 AS id, "TCCGGA" AS dna_sequence, "Acidianus hospitalis (strain W1)." AS organism) AS new_array),
  UNNEST(new_array)
"""

loader = BigQueryLoader(BASE_QUERY)
data = loader.load()

print(data)

指定内容和元数据的列

我们可以进一步指定哪些列应该被视为内容，哪些应被视为元数据：

loader = BigQueryLoader(
    BASE_QUERY,
    page_content_columns=["dna_sequence", "organism"],
    metadata_columns=["id"],
)

data = loader.load()
print(data)

在元数据中添加来源

通过修改查询，我们可以将 id 列作为一个来源字段：

ALIASED_QUERY = """
SELECT
  id,
  dna_sequence,
  organism,
  id as source
FROM (
  SELECT
    ARRAY (
    SELECT
      AS STRUCT 1 AS id, "ATTCGA" AS dna_sequence, "Lokiarchaeum sp. (strain GC14_75)." AS organism
    UNION ALL
    SELECT
      AS STRUCT 2 AS id, "AGGCGA" AS dna_sequence, "Heimdallarchaeota archaeon (strain LC_2)." AS organism
    UNION ALL
    SELECT
      AS STRUCT 3 AS id, "TCCGGA" AS dna_sequence, "Acidianus hospitalis (strain W1)." AS organism) AS new_array),
  UNNEST(new_array)
"""

loader = BigQueryLoader(ALIASED_QUERY, metadata_columns=["source"])
data = loader.load()

print(data)