在微信公众号里,有时,我们会见到一些音频听书。我们会好奇听书的内容,但因为事务繁忙,又没有时间去听。这时,将听书转为文字,然后快速浏览,是一种不错的选择。
本文音频转文字的策略,共分为两步:
1.下载音频 2.音频文件转文本。
1. 下载音频 请参考链接:https://www.jb51.net/zimeiti/874118.html
2. 音频文件转文本
如果音频文件小于2M,可以前往以下链接,进行免费转换:
https://app.xunjiepdf.com/voice2text/
当音频文件大于2M时,可以使用whisper将其免费转换为文本。
whisper的安装比较复杂,但只要按以下视频逐步操作,就可顺利使用。该视频位于某大视频网站,请自行科学前往。
视频标题:How to Install & Use Whisper AI Voice to Text
网址:https://www.youtube.com/watch?v=ABFqbY_rmEk&t=359s
whisper的使用效果:
-
默认输出5种格式的字幕文件:json, srt, tsv, txt, vtt。其中,txt没有时间信息。
-
准确率总体而言较高。个人觉得small已经够用了,base和tiny虽然速度快,但还是不够准确。
Size Parameters Multilingual model Required VRAM Relative speed tiny 39 M tiny ~1 GB ~32x base 74 M base ~1 GB ~16x small 244 M small ~2 GB ~6x medium 769 M medium ~5 GB ~2x large 1550 M large ~10 GB 1x -
不选择语言时,whisper首先会对语言进行自动识别。目前貌似没有简体字转换,只有繁体字(--language Mandarin和--language Chinese都是转换为繁体,但笔者有一次使用Mandarin时,转换成了简体)。繁体转简体,可以直接使用各种翻译网站,以下列举一个网址:
-
目前貌似无法添加汉语的标点符号,标点符号需要之后手动添加。