pcm转mp3_这6款超良心语音转文字工具,真让人省心

今天的文章,我想帮大家解决「语音转文字」的痛点。

工作学习中,我们总会遇上语音转文字的需求,例如工作会议布置大量任务、期末最后一节课划重点,语速太快来不及记录,只能录音。

但录音一时爽,听时「火葬场」。害怕错过重要部分,半个多小时的录音只能从头听到尾,实在是费时间!

上次在读者群,就有小伙伴提出了这个问题

22f73959ae760987cfe4aaec55363ee1.png

所以,今天我们就来盘一盘,现在市面上有哪些语音转文字的好工具!

文末我们也对这些工具做了性能对比,并且提供了音频格式转换软件,所以一定要看到最后哦。

或者你可以直接 私信@秋叶PPT软件」两个字拿到获取方式。

01 网页端

为了方便操作,很多人喜欢一边听录音,一边用电脑打字,觉得这样更快。

其实,最高效的操作是利用在线语音转文字工具,半个小时的工作几分钟就搞定!

下面 3 个神器,都给我收藏起来

网易见外工作台

https://jianwai.youdao.com/index/0

安全免费的 AI 智能语音转写听翻平台。

这是小伙伴推荐的,支持不超过 500M 文件的语音文字在线转换。

875cde269cea3d8ccc819eab14dda756.png

点击网页右上角的【新建项目】,打开【语音转写】,上传录音,选择文件语言和出稿类型,提交即可。

PS:一次只能转换一个文件,只支持 mp3、wav、aac 格式,比较局限。

f07890e7760451c59d308a2060ef78e2.png

转化速度稍慢,我 16 分钟的录音大概需要 3 分钟,比官方预计的早一些,不赶时间的小伙伴可以试试。

97b1dc6a7e280928360fdbb2240f5317.png

识别准确率还是不错的,就是断句不太清楚,有一些错误需要校正。底部有配套的音频,大家可以边听边核对,直接在网页进行修改。

核对完成后,点击右上角的【导出】,就能直接下载 Word 版本的文档,非常方便。

8c308e7e821d2d0f811718bbf18bb958.png

腾讯云语音识别

https://console.cloud.tencent.com/asr

如果你的音频文件数量多,时长<5小时,文件大小< 5M,可以选择腾讯云语音识别。

这是短语音批量转文字的工具,背靠鹅厂,服务性能稳定。

相较于网易见外,它的转化速度更快一些,音频格式更为丰富,支持 wav、pcm、opus、speex、silk、mp3;还能批量转化 10 个文件。

点击左上角的「功能体验」,上传录音文件,选择识别要求,点击【开始识别】。

fd23755d4bf6fa4ec3c0e4c90d75d867.png

每月有 10 小时的免费额度,足够大家使用了。

识别结果准确度和网易见外相差不大,也是断句不清,需要二次修改

41795a335c667dfd5814cb98570ccde7.png

相比于网易见外,不能在线更改,只能下载为 TXT 文档。

但如果结果样式选择【含时间戳】,每一段开头都有标注时间。若是转换结果有误,可直接将录音拖到那个时间节点,对照修改也很方便!

讯飞听见

https://www.iflyrec.com/html/addMachineOrder.html

说到语音转文字,就不得不提到讯飞。

上面两个网站虽然提供免费使用的机会,但如果你对转换的要求较高,「讯飞听见」这个大杀器值得拥有。

依托科大讯飞的核心语音技术,它的识别准确度高,而且转化速度快,1 小时音频最快 5 分钟出稿!

此外,它还支持中英混合模式,就算是对话中夹杂英文专业名词的外企会议录音,也能翻译得一清二楚。

322c04f73030503d633e14da84c89116.png

支持的格式比上面两个网站都要丰富,有 mp3、wav、pcm、m4a、amr、aac、mp4、3gp,8种格式!

转化结果的出错率更低。

与网易见外一样,它的底部也有录音,方便核对。但更为优秀的是,它还能倍速播放,跳过静音段,效率更高。

add3ea2796b5b6d05c9d777cf0f619ad.png

新用户注册赠送 1 小时机器转文字时长;除了网页,也可以下载对应的 APP。

02 手机端

如果你更习惯在手机上转换,或者有实时语音转文字的需求,再给你介绍下面 3 个神器。

录音转文字助手

微信小程序

适合不喜欢下载软件的手机极简达人。

可以转换 15 M 以下的录音文件,支持 mp3、m4a、wma、ac3、ogg、wav 等常用音频格式。

操作步骤非常简单,点击【文件识别】,上传文件即可。

e73e8b1966042163f6cc8fbeb05a13fb.png

转化结果准确率较高,还能翻译成英文,超贴心

b770cc966fdd041ade483d3bfea2c1ee.png

虽然底部有语音条,但不支持在线修改,只能点击【复制】,粘贴到其他地方进行修改。

除此之外,它的录音实时转换功能也很赞,如果你觉得还不错,也可以使用它的 APP,因为小程序只能保存一个月的识别记录。

相似小程序:语音转文字

i笛云听写

Android / iOS

如果想转换超过 15M 的音频,试一试「i笛云听写」吧。专业的音频网盘 APP,也是 AI 语音转文字的一把好手。

10 小时的免费转写额度,200 小时的储存空间,足够日常使用。

2a12644a2143c0e587b9da719138f0c8.png

目前支持的音频格式较为常见,有 wav、m4a、acc、mp3。

导入文件后,点击【转文字】,即可将录音转为文稿

注意:录音大小不超过 500M,单个音频的时长不超过 3 小时哦。

a28daad4e9b9702565cce99b81b33645.png

点击右下角的【整理】,即可复制全文,或进行编辑,修改超方便。

文稿修改完成后,还能导出为 Word、TXT 格式文档。

5c6c2dbe6b3a97c7d8307151c15ce9d9.png

对了,这款 APP 也提供网页版哦

http://www.voiceclub.cn/

相似软件:讯飞听见、搜狗听写、讯飞语记

有道云笔记

Android / iOS

除了记笔记,有道云居然也是语音转文字的利器!支持实时转化,功能免费,简直不要太方便!

点击底部中间的【+】,选择【语音速记】

480ffc5b5df59f33a0d5c6777c1f0288.png

点击【录音】,即可将语音实时转化为文字,识别率很高,并且在旁边提供了清晰的时间线。

在语音时,也可以随时暂停,非常适合碎片化的记录。

3133e588782fd4bf8e2cd8feb3b31626.png

支持修改文字,点击右上角的图标,可以导出为带文字和语音的笔记,分享超方便。

不愧是专业笔记软件 !

fde62454e5c40080acbef013b4579d7d.png

类似软件:WPS、Office APP 语音速记功能

03 我是「神」总结

关于语音转文字,我今天就先说到这里,想必大家看了一堆数据,都不知道自己该选哪一个了!

这一点,我也为大家考虑到了,并且贴心地做了一张性能对比图

选择自己需要的之后,再回到文章,看我们的操作示范,简直完美!我比较推荐网易见外和有道云 。

101d1cf0b488689e77d9e8f73bd9a94a.png

▲ 点开看大图

还没完!

考虑到很多小伙伴不知道如何导出手机录音文件,以及需要用到音频格式转换,所以助我还贴心准备了相关安装包和使用教程。

可以直接 私信 @秋叶PPT 软件」两个字拿到获取方式。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
1、Java实现wav音频文件换为pcm音频文件(AudioUtils.java) 2、Java实现播放pcm音频文件(PCMPlay.java) WAV:wav是一种无损的音频文件格式,WAV符合 PIFF(Resource Interchange File Format)规范。所有的WAV都有一个文件头,这个文件头音频流的编码参数。WAV对音频流的编码没有硬性规定,除了PCM之外,还有几乎所有支持ACM规范的编码都可以为WAV的音频流进行编码。 PCM:PCM(Pulse Code Modulation----脉码调制录音)。所谓PCM录音就是将声音等模拟信号变成符号化的脉冲列,再予以记录。PCM信号是由[1]、[0]等符号构成的数字信号,而未经过任何编码和压缩处理。与模拟信号比,它不易受传送系统的杂波及失真的影响。动态范围宽,可得到音质相当好的影响效果。 简单来说:wav是一种无损的音频文件格式,pcm是没有压缩的编码方式。 WAV和PCM的关系 WAV可以使用多种音频编码来压缩其音频流,不过我们常见的都是音频流被PCM编码处理的WAV,但这不表示WAV只能使用PCM编码,MP3编码同样也可以运用在WAV中,和AVI一样,只要安装好了相应的Decode,就可以欣赏这些WAV了。在Windows平台下,基于PCM编码的WAV是被支持得最好的音频格式,所有音频软件都能完美支持,由于本身可以达到较高的音质的要求,因此,WAV也是音乐编辑创作的首选格式,适合保存音乐素材。因此,基于PCM编码的WAV被作为了一种中介的格式,常常使用在其他编码的相互换之中,例如MP3换成WMA。 简单来说:pcm是无损wav文件中音频数据的一种编码方式,但wav还可以用其它方式编码。
在 Qt 中,可以使用 Qt Multimedia 模块中的 QAudioOutput 和 QAudioFormat 类来生成 PCM 格式的音频。而要将文字换为语音,则需要使用第三方语音合成 API,例如科大讯飞、百度语音等。 以下是一个简单的示例代码,使用科大讯飞的语音合成 API 将输入的文字换为 PCM 格式的音频: ```cpp #include <QCoreApplication> #include <QUrl> #include <QNetworkAccessManager> #include <QNetworkRequest> #include <QNetworkReply> #include <QJsonDocument> #include <QJsonObject> #include <QAudioOutput> #include <QAudioFormat> QString appId = "your app id"; // 替换为你的 AppId QString apiKey = "your api key"; // 替换为你的 API Key QString apiSecret = "your api secret"; // 替换为你的 API Secret void textToSpeech(const QString& text, const QString& filePath) { QString url = "http://api.xfyun.cn/v1/service/v1/tts"; QString param = "{\"auf\":\"audio/L16;rate=16000\",\"aue\":\"raw\",\"voice_name\":\"xiaoyan\",\"engine_type\":\"intp65\",\"text\":\"" + text + "\"}"; QString currentTime = QString::number(QDateTime::currentDateTime().toTime_t()); QString checksum = QCryptographicHash::hash((apiKey + currentTime + param).toUtf8(), QCryptographicHash::Md5).toHex(); QUrl apiUrl(url); apiUrl.addQueryItem("auf", "audio/L16;rate=16000"); apiUrl.addQueryItem("aue", "raw"); apiUrl.addQueryItem("voice_name", "xiaoyan"); apiUrl.addQueryItem("engine_type", "intp65"); apiUrl.addQueryItem("text", text); QNetworkRequest request(apiUrl); request.setRawHeader("Content-Type", "application/x-www-form-urlencoded; charset=utf-8"); request.setRawHeader("X-Appid", appId.toUtf8()); request.setRawHeader("X-CurTime", currentTime.toUtf8()); request.setRawHeader("X-Param", param.toUtf8()); request.setRawHeader("X-CheckSum", checksum.toUtf8()); QNetworkAccessManager manager; QNetworkReply* reply = manager.post(request, QByteArray()); QEventLoop loop; QObject::connect(reply, &QNetworkReply::finished, &loop, &QEventLoop::quit); loop.exec(); QByteArray responseData = reply->readAll(); reply->deleteLater(); QJsonDocument jsonDoc = QJsonDocument::fromJson(responseData); QJsonObject jsonObj = jsonDoc.object(); if (jsonObj.contains("code") && jsonObj.value("code").toInt() == 0) { QByteArray audioData = QByteArray::fromBase64(jsonObj.value("data").toString().toUtf8()); QFile file(filePath); if (file.open(QIODevice::WriteOnly)) { file.write(audioData); file.close(); } } } int main(int argc, char *argv[]) { QCoreApplication a(argc, argv); QString text = "你好,Qt!"; QString filePath = "output.pcm"; textToSpeech(text, filePath); QAudioFormat format; format.setSampleRate(16000); format.setChannelCount(1); format.setSampleSize(16); format.setCodec("audio/pcm"); format.setByteOrder(QAudioFormat::LittleEndian); format.setSampleType(QAudioFormat::SignedInt); QAudioOutput output(format); output.start(&QFile(filePath)); return a.exec(); } ``` 在上面的代码中,`textToSpeech` 函数使用科大讯飞的语音合成 API 将输入的 `text` 换为 PCM 格式的音频,并保存到指定的文件 `filePath` 中。然后,定义了一个 `QAudioFormat` 对象来设置音频格式,使用 `QAudioOutput` 类来播放生成的 PCM 音频。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值