AI技术发展很快,现在有大量的模型都可以把录音转成文字,方便日常的记录与学习。不过这种方案做的语音转换只能是差强人意,一些专有名词总是识别的奇奇怪怪,这样导致后续还要人工做校对。校对就要不断定位到录音的位置,所以几乎还是要重新听一遍,并没有带来效率的提升。
后来看到过一种方案,就是把原始转换的文字提交给大模型,让他辅助优化,校对整理。部分场景是有些提升的,但是通用性不高,比如下面是用GPT-4o对新闻类语音的校对,感觉其实跟没校对差不多。
但是最近在对比各模型时发现,Anthropic Claude的模型在角色扮演上的表现已经比OpenAI要优秀了。所以顺便测试了claude-3.5-sonnet的校对能力,结果真是大跌眼镜,直接上图。
7.中老免泰梅工合 ==》中老缅泰湄公河 【完全正确 amazing】
9.泰国总理他信结束15年流亡回国,被判服刑8年 【理解句意,进行了合并。后面各条目的合并也都正确,就不赘述了,唯一漏掉的是2.3的合并】
10.原无医疗队 疫诊 ==》援外医疗队 义诊 【感觉原文可能是援乌医疗队,不过改成援外也没错】
12.明渡等温线升至星高 ==》瑞士零度等温线升至新高【这也能猜对,amazing,不过改变了原文的顺序,要在prompt限制一下】
13.设他 ==》赛塔【这是2023年8月的新闻,说明OpenAI的数据库不够新,应该是只到23年4月。顺便说一句,今年8月,泰国总理又换人了,以后拿来测试数据库日期,还挺好。】
15.注梦之路,中国桥连发展历程展==》“筑梦之路”中国桥梁发展历程展【完全正确,还帮你把引号也打上了】
总结来说:claude-3.5-sonnet的表现实在令人惊艳,OpenAI在我心目中终于走下了神坛。不过唯一缺点的是sonnet要贵一些,上面这一小段60s录音校对价格大约是0.07元,一小时的录音就差不多要4元,对普通人来说,恐怕贵了些。
最近搭建了一个把各家AI模型融合在一起api测试接口,方便大家对比各种模型的优缺点,每次请求的日志费用都一目了然,需要的话可以私聊。
【后续发文计划】
- #AI应用
- 录音识别文字后的校对(已发布)
- 免费的AI图片生成接口
- 最逼真的文字转语音模型
- 论文/网页总结速览及问答
- 自建知识库问答
- 微信bot的应用
- #智能家居生活
- 空调30℃开一晚,到底会怎样?附卧室数据展示
- 自制温湿度监控记录报警器
- 语音开关控制方案
- 低成本智能音箱
- 简易自动喂食器
- 酸奶机改造成恒温孵化箱