生成合成数据：隐私保护与数据扩展的完美结合-CSDN博客

本文链接：https://blog.csdn.net/afTFODguAKBF/article/details/143603968

生成合成数据：隐私保护与数据扩展的完美结合

合成数据，是指通过人工方式生成，而不是从真实事件中收集的数据。它被广泛用于模拟真实数据，这样既能保护隐私，又可以避免现实世界中的限制。合成数据的使用在近年来逐渐增多，尤其是在AI和机器学习领域，因为它为我们提供了多种显著的优势。

合成数据的优势

隐私和安全：不会有真实个人数据遭遇泄漏风险。
数据增强：扩展机器学习的数据集。
灵活性：可以创造特定或罕见的场景。
具成本效益：通常比真实数据收集更便宜。
符合法规：帮助遵循严格的数据保护法律。
模型健壮性：可以提升AI模型的普遍性。
快速原型设计：无需真实数据即可快速测试。
受控实验：模拟特定条件。
数据获取：当真实数据不可用时，提供替代方案。

需要注意的是，尽管合成数据有许多优点，但它未必能完全捕捉现实世界的复杂性，因此需谨慎使用。

快速入门

在这篇文章中，我们将深入探讨如何使用langchain库生成合成的医疗计费记录。这种工具特别适用于希望开发或测试算法但又不想使用真实患者数据的场景，以避免隐私问题。

环境准备

首先，你需要安装langchain库以及其依赖项。因为我们使用OpenAI生成器链，还需要安装langchain-openai。由于这是一个实验性库，还需包括langchain_experimental。

%pip install --upgrade --quiet langchain langchain_experimental langchain-openai

# 设置环境变量OPENAI_API_KEY或者从.env文件加载：
# import dotenv
# dotenv.load_dotenv()

from langchain.prompts import FewShotPromptTemplate, PromptTemplate
from langchain_core.pydantic_v1 import BaseModel
from langchain_experimental.tabular_synthetic_data.openai import (
    OPENAI_TEMPLATE,
    create_openai_data_generator,
)
from langchain_experimental.tabular_synthetic_data.prompts import (
    SYNTHETIC_FEW_SHOT_PREFIX,
    SYNTHETIC_FEW_SHOT_SUFFIX,
)
from langchain_openai import ChatOpenAI

1. 定义数据模型

每个数据集都有其结构或“schema”。下面的MedicalBilling类就是我们合成数据的schema。通过定义它，我们就告诉合成数据生成器我们期望的数据形态和性质。

class MedicalBilling(BaseModel):
    patient_id: int
    patient_name: str
    diagnosis_code: str
    procedure_code: str
    total_charge: float
    insurance_claim_amount: float

例如，每条记录都会有一个整数类型的patient_id，字符串类型的patient_name，等等。

2. 样本数据

为了更好地指导合成数据生成器，提供一些真实世界类似的样本非常有用。这些样本作为“种子”，代表你想要的数据类型，生成器将使用它们来创造更多相似的数据。

examples = [
    {
        "example": "Patient ID: 123456, Patient Name: John Doe, Diagnosis Code: J20.9, Procedure Code: 99203, Total Charge: $500, Insurance Claim Amount: $350"
    },
    {
        "example": "Patient ID: 789012, Patient Name: Johnson Smith, Diagnosis Code: M54.5, Procedure Code: 99213, Total Charge: $150, Insurance Claim Amount: $120"
    },
    {
        "example": "Patient ID: 345678, Patient Name: Emily Stone, Diagnosis Code: E11.9, Procedure Code: 99214, Total Charge: $300, Insurance Claim Amount: $250"
    },
]

3. 制作提示模板

生成器并不是自动知道如何创建我们的数据；我们需要引导它。我们通过创建提示模板来实现这一点。这个模板帮助指导底层的语言模型生成所需格式的合成数据。

OPENAI_TEMPLATE = PromptTemplate(input_variables=["example"], template="{example}")

prompt_template = FewShotPromptTemplate(
    prefix=SYNTHETIC_FEW_SHOT_PREFIX,
    examples=examples,
    suffix=SYNTHETIC_FEW_SHOT_SUFFIX,
    input_variables=["subject", "extra"],
    example_prompt=OPENAI_TEMPLATE,
)

4. 创建数据生成器

有了schema和提示模板，下一步就是创建数据生成器。这个对象知道如何与底层语言模型通信以获取合成数据。

synthetic_data_generator = create_openai_data_generator(
    output_schema=MedicalBilling,
    llm=ChatOpenAI(temperature=1),  # 需替换为实际的语言模型实例
    prompt=prompt_template,
)

5. 生成合成数据

最后，生成我们的合成数据！

synthetic_results = synthetic_data_generator.generate(
    subject="medical_billing",
    extra="the name must be chosen at random. Make it something you wouldn't normally choose.",
    runs=10,
)