【策略】微信推文mp3音频听书下载+转字幕和文字稿

homework0

已于 2024-06-19 05:24:42 修改

阅读量909

点赞数 12

文章标签： whisper

于 2024-01-16 07:00:45 首次发布

本文链接：https://blog.csdn.net/fleof/article/details/135614955

版权

在微信公众号里，有时，我们会见到一些音频听书。我们会好奇听书的内容，但因为事务繁忙，又没有时间去听。这时，将听书转为文字，然后快速浏览，是一种不错的选择。

本文音频转文字的策略，共分为两步：

1.下载音频 2.音频文件转文本。

1. 下载音频 请参考链接：https://www.jb51.net/zimeiti/874118.html

2. 音频文件转文本

如果音频文件小于2M，可以前往以下链接，进行免费转换：

当音频文件大于2M时，可以使用whisper将其免费转换为文本。

whisper的安装比较复杂，但只要按以下视频逐步操作，就可顺利使用。该视频位于某大视频网站，请自行科学前往。

视频标题：How to Install & Use Whisper AI Voice to Text

whisper的使用效果：

默认输出5种格式的字幕文件：json, srt, tsv, txt, vtt。其中，txt没有时间信息。
准确率总体而言较高。个人觉得small已经够用了，base和tiny虽然速度快，但还是不够准确。

Size Parameters Multilingual model Required VRAM Relative speed
tiny 39 M tiny ~1 GB ~32x
base 74 M base ~1 GB ~16x
small 244 M small ~2 GB ~6x
medium 769 M medium ~5 GB ~2x
large 1550 M large ~10 GB 1x
表格来源：https://www.jb51.net/article/276525.htm
不选择语言时，whisper首先会对语言进行自动识别。目前貌似没有简体字转换，只有繁体字（--language Mandarin和--language Chinese都是转换为繁体，但笔者有一次使用Mandarin时，转换成了简体）。繁体转简体，可以直接使用各种翻译网站，以下列举一个网址：

https://fanyi.baidu.com/?aldtype=16047#auto/zh
目前貌似无法添加汉语的标点符号，标点符号需要之后手动添加。