深度解析 WeClone：打造你的数字分身

最新推荐文章于 2025-06-04 12:30:03 发布

darkb1rd

最新推荐文章于 2025-06-04 12:30:03 发布

阅读量2.4k

点赞数 23

文章标签：开源语言模型人工智能微信

本文链接：https://blog.csdn.net/darkb1rd/article/details/147022979

版权

在这里插入图片描述

在人工智能快速发展的今天，个性化数字分身已经不再是科幻小说中的构想。GitHub 上的开源项目 WeClone 为我们展示了如何通过深度学习技术，结合微信聊天记录和语音数据，打造一个具有个人特色的 AI 数字分身。

📑 核心技术架构

WeClone 项目主要包含两大核心模块：

1. 基于 LLM 的对话微调模块

项目采用了 ChatGLM3-6B 作为基础模型，通过 LoRA 方法进行 SFT（Supervised Fine-Tuning）阶段的微调。这种方式不仅可以显著降低显存需求，还能保持模型的基础能力的同时，注入个性化的对话风格。

💡 关键技术点：

采用 LoRA 低秩适应技术
支持 16GB 显存即可运行
使用个人微信聊天记录进行微调
支持多卡训练加速

2. WeClone-audio 语音克隆模块

这是项目中最引人注目的特性之一。WeClone-audio 模块支持两种不同的语音合成方案：

Spark-TTS（推荐方案）

import SparkTTS
from SparkTTS import SparkTTS

model = SparkTTS("WeClone-audio/pretrained_models/Spark-TTS-0.5B", "cuda")

# 语音克隆推理
with torch.no_grad():
    wav = model.inference(
        text="要生成的文本内容",
        prompt_speech_path="示例音频路径",
        prompt_text="示例音频对应的文本",
    )

Llasa 方案

from text_to_speech import TextToSpeech

tts = TextToSpeech(sample_audio_path, sample_audio_text)
result = tts.infer("要生成的文本内容")

🔍 技术特点分析：

低资源需求

Spark-TTS (0.5B 模型)：仅需 4GB 显存
Llasa：支持 1B (9GB 显存) 和 3B (16GB 显存) 两种规格

高质量声音克隆

支持微信语音消息作为输入
语音片段最长支持 15 秒
支持文本到语音的精确转换
保持声音特征的稳定性

灵活的推理控制

# Spark-TTS 支持更细致的语音控制
wav = model.inference(
    text="文本内容",
    gender="female",  # 性别控制
    pitch="high",     # 音高控制
    speed="moderate", # 语速控制
    temperature=0.8,  # 随机性控制
    top_k=50,        # 采样参数
    top_p=0.95       # 核采样参数
)

🛠️ 项目实现细节

1. 数据预处理流程

WeClone 项目对数据处理非常严谨，实现了完整的数据清洗和隐私保护机制：

# 数据预处理核心逻辑
1. 使用 PyWxDump 提取微信聊天记录
2. 自动过滤敏感信息（手机号、身份证号、邮箱、网址等）
3. 支持自定义词库过滤
4. 多种对话串接模式支持

2. 语音克隆核心实现

在 TextToSpeech 类中，我们可以看到语音克隆的核心实现：

class TextToSpeech:
    def __init__(self, sample_audio_path, sample_audio_text):
        # 初始化模型和处理器
        self.tokenizer = AutoTokenizer.from_pretrained("HKUSTAudio/Llasa-3B")
        self.llasa_3b_model = AutoModelForCausalLM.from_pretrained(
            "HKUSTAudio/Llasa-3B",
            trust_remote_code=True,
            device_map="auto",
        )
        
        # 音频预处理
        waveform, sample_rate = torchaudio.load(sample_audio_path)
        if len(waveform[0]) / sample_rate > 15:
            waveform = waveform[:, : sample_rate * 15]  # 裁剪至15秒
            
        # 转换为单声道
        if waveform.size(0) > 1:
            waveform_mono = torch.mean(waveform, dim=0, keepdim=True)