探索Google BigQuery的强大功能：大数据处理新手入门指南

最新推荐文章于 2025-04-15 18:01:14 发布

ahdfwcevnhrtds

最新推荐文章于 2025-04-15 18:01:14 发布

阅读量542

点赞数 5

文章标签： python

本文链接：https://blog.csdn.net/ahdfwcevnhrtds/article/details/144119775

版权

引言

在现代数据驱动的世界中，处理大规模数据的能力变得至关重要。Google BigQuery作为Google云平台的一部分，是一款无服务器、成本效益高的数据仓库解决方案，可以方便地跨云扩展数据。本篇文章旨在为新手提供BigQuery的使用入门指南，带您了解如何加载BigQuery查询并将结果处理为可用的数据文档。

主要内容

什么是Google BigQuery？

Google BigQuery是一种无服务器的数据仓库服务，使用户可以轻松存储、查询和分析大数据。其强大的计算能力让您能够在秒级完成对PB级数据的查询。

BigQueryLoader的基本用法

BigQueryLoader是一个Python库，简化了将BigQuery查询结果加载到文档形式的过程。下面我们将展示其基本用法和如何指定内容与元数据。

代码示例

为了使用BigQueryLoader，我们需要首先安装必要的包：

%pip install --upgrade --quiet langchain-google-community[bigquery]

接下来，我们使用BigQueryLoader加载一个简单的查询：

from langchain_google_community import BigQueryLoader

# 基础查询
BASE_QUERY = """
SELECT
  id,
  dna_sequence,
  organism
FROM (
  SELECT
    ARRAY (
    SELECT
      AS STRUCT 1 AS id, "ATTCGA" AS dna_sequence, "Lokiarchaeum sp. (strain GC14_75)." AS organism
    UNION ALL
    SELECT
      AS STRUCT 2 AS id, "AGGCGA" AS dna_sequence, "Heimdallarchaeota archaeon (strain LC_2)." AS organism
    UNION ALL
    SELECT
      AS STRUCT 3 AS id, "TCCGGA" AS dna_sequence, "Acidianus hospitalis (strain W1)." AS organism) AS new_array),
  UNNEST(new_array)
"""

# 加载数据
loader = BigQueryLoader(BASE_QUERY)
data = loader.load()
print(data)

在输出中，您将看到每行查询结果都被格式化为一个文档对象。

指定内容和元数据

您可以通过改变参数来指定哪些列作为内容，哪些作为元数据：

loader = BigQueryLoader(
    BASE_QUERY,
    page_content_columns=["dna_sequence", "organism"],
    metadata_columns=["id"],
)

data = loader.load()
print(data)

添加源信息到元数据

我们也可以将某一列的别名添加为文档的元数据：

ALIASED_QUERY = """
SELECT
  id,
  dna_sequence,
  organism,
  id as source
FROM (
  SELECT
    ARRAY (
    SELECT
      AS STRUCT 1 AS id, "ATTCGA" AS dna_sequence, "Lokiarchaeum sp. (strain GC14_75)." AS organism
    UNION ALL
    SELECT
      AS STRUCT 2 AS id, "AGGCGA" AS dna_sequence, "Heimdallarchaeota archaeon (strain LC_2)." AS organism
    UNION ALL
    SELECT
      AS STRUCT 3 AS id, "TCCGGA" AS dna_sequence, "Acidianus hospitalis (strain W1)." AS organism) AS new_array),
  UNNEST(new_array)
"""

loader = BigQueryLoader(ALIASED_QUERY, metadata_columns=["source"])
data = loader.load()
print(data)