whisper不同模型规模的处理结果比较

一、工具

VirtualBox V7.1.6
Ubuntu V24.04.1 desktop版
测试视频是随便从B站下载的 致富经:外来物种袭扰,村民变废为宝
B站视频下载网页工具:https://greenvideo.cc/bilibili
声明:以上内容仅作学习用途使用

二、处理过程:

先使用ffmpeg工具从视频中提取30秒音频,然后再用whisper处理这个30秒的音频文件,就能得到一个.txt的文本结果。

三、结果

以下是不同模型规模的处理结果,tiny、base、small、middum、large,随着模型变大,语音识别的准确度显著提高,但相应地,处理时间也被拉长了好多。

tiny:

base:

small:

medium:

large:

### 训练 Whisper 模型的方法 训练 Whisper 模型涉及多个步骤,包括环境配置、数据准备、模型选择以及实际的训练过程。以下是关于如何训练 Whisper 模型的具体说明: #### 环境配置 为了成功训练 Whisper 模型,需要安装必要的依赖库并设置开发环境。可以使用 `transformers` 库来加载预定义的 Whisper 模型架构[^4]。 ```bash pip install transformers datasets torch librosa evaluate accelerate ``` #### 数据准备 高质量的数据集对于训练效果至关重要。通常情况下,语音识别任务中的数据由音频文件及其对应的转录文本组成。建议使用公开可用的大规模语音数据集(如 Common Voice 或 LibriSpeech),或者根据具体需求收集定制化数据。 - **音频处理**:将所有音频转换成统一采样率(例如 16kHz)。这可以通过 Python 的 `librosa` 工具完成。 ```python import librosa def load_audio(file_path, target_sr=16000): audio, sr = librosa.load(file_path, sr=target_sr) return audio ``` - **标注清洗**:确保每条音频都有清晰无误的文字描述,并去除可能存在的噪声或不必要字符[^2]。 #### 模型初始化 Whisper 支持多种大小不同的变体(tinybasesmall、medium 和 large-v1/v2)。可以根据计算资源限制挑选适合自己的版本[^3]。 ```python from transformers import WhisperForConditionalGeneration, WhisperProcessor model_name = "openai/whisper-base" processor = WhisperProcessor.from_pretrained(model_name) model = WhisperForConditionalGeneration.from_pretrained(model_name).train() ``` #### 细粒度微调 如果希望针对特定领域优化性能,则需执行迁移学习操作——即在已有权重基础上进一步调整参数以适应新场景下的输入特征分布差异情况。 ```python from datasets import DatasetDict, load_dataset from transformers import Seq2SeqTrainer, Seq2SeqTrainingArguments # 加载自定义数据集 dataset = load_dataset("your_custom_dataset") # 定义训练参数 training_args = Seq2SeqTrainingArguments( output_dir="./results", per_device_train_batch_size=8, gradient_accumulation_steps=2, learning_rate=5e-5, warmup_steps=500, max_steps=4000, fp16=True, ) trainer = Seq2SeqTrainer( model=model, args=training_args, train_dataset=dataset["train"], eval_dataset=dataset["test"], tokenizer=processor.feature_extractor, data_collator=DataCollatorWithPadding(processor), ) trainer.train() ``` 以上代码片段展示了通过 Hugging Face 的 Trainer API 实现自动化流程管理的方式。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值