生成合成数据：从实战中学习的完整指南_合成数据生成入门教程-CSDN博客

本文链接：https://blog.csdn.net/aehrutktrjk/article/details/143223592

引言

合成数据是由计算机生成的，与现实世界数据模拟相似的数据集。它被广泛用于保护隐私、数据增广、快速原型设计等领域。但即使有众多优点，合成数据的复杂度仍需谨慎对待。本篇文章将探讨如何使用langchain库生成合成数据，并提供实用的代码示例。

主要内容

合成数据的优势

隐私和安全：不涉及真实个人数据，无数据泄露风险。
数据增广：扩充机器学习的数据集。
灵活性：创建特定或罕见场景。
性价比高：通常比收集真实数据更经济。
法规合规性：帮助应对严格的数据保护法律。
模型鲁棒性：提高AI模型的泛化能力。
快速原型设计：无需真实数据即可快速测试。
受控实验：模拟特定条件。
数据获取：当无法获得真实数据时的替代方案。

尽管优点众多，合成数据可能无法完全捕捉现实世界的复杂性。

使用langchain生成合成数据

安装与设置

首先，确保安装了langchain库及其依赖。

%pip install --upgrade --quiet langchain langchain_experimental langchain-openai

数据模型定义

定义数据的结构或“模式”是生成合成数据的第一步。

from langchain_core.pydantic_v1 import BaseModel

class MedicalBilling(BaseModel):
    patient_id: int
    patient_name: str
    diagnosis_code: str
    procedure_code: str
    total_charge: float
    insurance_claim_amount: float

样本数据

提供一些代表性的数据作为生成器的种子。

examples = [
    {
        "example": """Patient ID: 123456, Patient Name: John Doe, Diagnosis Code: J20.9, Procedure Code: 99203, Total Charge: $500, Insurance Claim Amount: $350"""
    },
    {
        "example": """Patient ID: 789012, Patient Name: Johnson Smith, Diagnosis Code: M54.5, Procedure Code: 99213, Total Charge: $150, Insurance Claim Amount: $120"""
    },
    {
        "example": """Patient ID: 345678, Patient Name: Emily Stone, Diagnosis Code: E11.9, Procedure Code: 99214, Total Charge: $300, Insurance Claim Amount: $250"""
    },
]

创建提示模板

提示模板帮助生成器理解如何生成所需格式的数据。

from langchain.prompts import FewShotPromptTemplate, PromptTemplate

OPENAI_TEMPLATE = PromptTemplate(input_variables=["example"], template="{example}")

prompt_template = FewShotPromptTemplate(
    prefix=SYNTHETIC_FEW_SHOT_PREFIX,
    examples=examples,
    suffix=SYNTHETIC_FEW_SHOT_SUFFIX,
    input_variables=["subject", "extra"],
    example_prompt=OPENAI_TEMPLATE,
)

创建数据生成器

构建生成器以便与底层语言模型通信。

from langchain_openai import ChatOpenAI
from langchain_experimental.tabular_synthetic_data.openai import create_openai_data_generator

synthetic_data_generator = create_openai_data_generator(
    output_schema=MedicalBilling,
    llm=ChatOpenAI(temperature=1),  # 使用API代理服务提高访问稳定性
    prompt=prompt_template,
)

生成合成数据

生成合成数据并输出结果。

synthetic_results = synthetic_data_generator.generate(
    subject="medical_billing",
    extra="the name must be chosen at random. Make it something you wouldn't normally choose.",
    runs=10,
)