AI应用:录音识别校对

AI技术发展很快,现在有大量的模型都可以把录音转成文字,方便日常的记录与学习。不过这种方案做的语音转换只能是差强人意,一些专有名词总是识别的奇奇怪怪,这样导致后续还要人工做校对。校对就要不断定位到录音的位置,所以几乎还是要重新听一遍,并没有带来效率的提升。

后来看到过一种方案,就是把原始转换的文字提交给大模型,让他辅助优化,校对整理。部分场景是有些提升的,但是通用性不高,比如下面是用GPT-4o对新闻类语音的校对,感觉其实跟没校对差不多。

图片

但是最近在对比各模型时发现,Anthropic Claude的模型在角色扮演上的表现已经比OpenAI要优秀了。所以顺便测试了claude-3.5-sonnet的校对能力,结果真是大跌眼镜,直接上图。

图片

7.中老免泰梅工合 ==》中老缅泰湄公河 【完全正确 amazing】

9.泰国总理他信结束15年流亡回国,被判服刑8年 【理解句意,进行了合并。后面各条目的合并也都正确,就不赘述了,唯一漏掉的是2.3的合并】

10.原无医疗队 疫诊 ==》援外医疗队 义诊 【感觉原文可能是援乌医疗队,不过改成援外也没错】

12.明渡等温线升至星高 ==》瑞士零度等温线升至新高【这也能猜对,amazing,不过改变了原文的顺序,要在prompt限制一下】

13.设他 ==》赛塔【这是2023年8月的新闻,说明OpenAI的数据库不够新,应该是只到23年4月。顺便说一句,今年8月,泰国总理又换人了,以后拿来测试数据库日期,还挺好。】

15.注梦之路,中国桥连发展历程展==》“筑梦之路”中国桥梁发展历程展【完全正确,还帮你把引号也打上了】

总结来说:claude-3.5-sonnet的表现实在令人惊艳,OpenAI在我心目中终于走下了神坛。不过唯一缺点的是sonnet要贵一些,上面这一小段60s录音校对价格大约是0.07元,一小时的录音就差不多要4元,对普通人来说,恐怕贵了些。

图片


最近搭建了一个把各家AI模型融合在一起api测试接口,方便大家对比各种模型的优缺点,每次请求的日志费用都一目了然,需要的话可以私聊。


【后续发文计划】

  • #AI应用
    • 录音识别文字后的校对(已发布)
    • 免费的AI图片生成接口
    • 最逼真的文字转语音模型
    • 论文/网页总结速览及问答
    • 自建知识库问答
    • 微信bot的应用
  • #智能家居生活
    • 空调30℃开一晚,到底会怎样?附卧室数据展示
    • 自制温湿度监控记录报警器
    • 语音开关控制方案
    • 低成本智能音箱
    • 简易自动喂食器
    • 酸奶机改造成恒温孵化箱
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值