AI应用：录音识别校对

tssy32

已于 2024-09-04 17:21:50 修改

阅读量444

点赞数 5

分类专栏： AI应用文章标签：语音识别人工智能

于 2024-09-03 10:28:51 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tssy32/article/details/141854681

版权

AI应用专栏收录该内容

2 篇文章

订阅专栏

AI技术发展很快，现在有大量的模型都可以把录音转成文字，方便日常的记录与学习。不过这种方案做的语音转换只能是差强人意，一些专有名词总是识别的奇奇怪怪，这样导致后续还要人工做校对。校对就要不断定位到录音的位置，所以几乎还是要重新听一遍，并没有带来效率的提升。

后来看到过一种方案，就是把原始转换的文字提交给大模型，让他辅助优化，校对整理。部分场景是有些提升的，但是通用性不高，比如下面是用GPT-4o对新闻类语音的校对，感觉其实跟没校对差不多。

但是最近在对比各模型时发现，Anthropic Claude的模型在角色扮演上的表现已经比OpenAI要优秀了。所以顺便测试了claude-3.5-sonnet的校对能力，结果真是大跌眼镜，直接上图。

7.中老免泰梅工合 ==》中老缅泰湄公河【完全正确 amazing】

9.泰国总理他信结束15年流亡回国，被判服刑8年【理解句意，进行了合并。后面各条目的合并也都正确，就不赘述了，唯一漏掉的是2.3的合并】

10.原无医疗队疫诊 ==》援外医疗队义诊【感觉原文可能是援乌医疗队，不过改成援外也没错】

12.明渡等温线升至星高 ==》瑞士零度等温线升至新高【这也能猜对，amazing，不过改变了原文的顺序，要在prompt限制一下】

13.设他 ==》赛塔【这是2023年8月的新闻，说明OpenAI的数据库不够新，应该是只到23年4月。顺便说一句，今年8月，泰国总理又换人了，以后拿来测试数据库日期，还挺好。】

15.注梦之路，中国桥连发展历程展==》“筑梦之路”中国桥梁发展历程展【完全正确，还帮你把引号也打上了】

总结来说：claude-3.5-sonnet的表现实在令人惊艳，OpenAI在我心目中终于走下了神坛。不过唯一缺点的是sonnet要贵一些，上面这一小段60s录音校对价格大约是0.07元，一小时的录音就差不多要4元，对普通人来说，恐怕贵了些。

最近搭建了一个把各家AI模型融合在一起api测试接口，方便大家对比各种模型的优缺点，每次请求的日志费用都一目了然，需要的话可以私聊。

【后续发文计划】

#AI应用
- 录音识别文字后的校对（已发布）
- 免费的AI图片生成接口
- 最逼真的文字转语音模型
- 论文/网页总结速览及问答
- 自建知识库问答
- 微信bot的应用
#智能家居生活
- 空调30℃开一晚，到底会怎样？附卧室数据展示
- 自制温湿度监控记录报警器
- 语音开关控制方案
- 低成本智能音箱
- 简易自动喂食器
- 酸奶机改造成恒温孵化箱

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。