AI应用:录音识别校对

AI技术发展很快,现在有大量的模型都可以把录音转成文字,方便日常的记录与学习。不过这种方案做的语音转换只能是差强人意,一些专有名词总是识别的奇奇怪怪,这样导致后续还要人工做校对。校对就要不断定位到录音的位置,所以几乎还是要重新听一遍,并没有带来效率的提升。

后来看到过一种方案,就是把原始转换的文字提交给大模型,让他辅助优化,校对整理。部分场景是有些提升的,但是通用性不高,比如下面是用GPT-4o对新闻类语音的校对,感觉其实跟没校对差不多。

图片

但是最近在对比各模型时发现,Anthropic Claude的模型在角色扮演上的表现已经比OpenAI要优秀了。所以顺便测试了claude-3.5-sonnet的校对能力,结果真是大跌眼镜,直接上图。

图片

7.中老免泰梅工合 ==》中老缅泰湄公河 【完全正确 amazing】

9.泰国总理他信结束15年流亡回国,被判服刑8年 【理解句意,进行了合并。后面各条目的合并也都正确,就不赘述了,唯一漏掉的是2.3的合并】

10.原无医疗队 疫诊 ==》援外医疗队 义诊 【感觉原文可能是援乌医疗队,不过改成援外也没错】

12.明渡等温线升至星高 ==》瑞士零度等温线升至新高【这也能猜对,amazing,不过改变了原文的顺序,要在prompt限制一下】

13.设他 ==》赛塔【这是2023年8月的新闻,说明OpenAI的数据库不够新,应该是只到23年4月。顺便说一句,今年8月,泰国总理又换人了,以后拿来测试数据库日期,还挺好。】

15.注梦之路,中国桥连发展历程展==》“筑梦之路”中国桥梁发展历程展【完全正确,还帮你把引号也打上了】

总结来说:claude-3.5-sonnet的表现实在令人惊艳,OpenAI在我心目中终于走下了神坛。不过唯一缺点的是sonnet要贵一些,上面这一小段60s录音校对价格大约是0.07元,一小时的录音就差不多要4元,对普通人来说,恐怕贵了些。

图片


最近搭建了一个把各家AI模型融合在一起api测试接口,方便大家对比各种模型的优缺点,每次请求的日志费用都一目了然,需要的话可以私聊。


【后续发文计划】

  • #AI应用
    • 录音识别文字后的校对(已发布)
    • 免费的AI图片生成接口
    • 最逼真的文字转语音模型
    • 论文/网页总结速览及问答
    • 自建知识库问答
    • 微信bot的应用
  • #智能家居生活
    • 空调30℃开一晚,到底会怎样?附卧室数据展示
    • 自制温湿度监控记录报警器
    • 语音开关控制方案
    • 低成本智能音箱
    • 简易自动喂食器
    • 酸奶机改造成恒温孵化箱
Word语音打字校对专家 5.92 特别版 [在百度搜索相关主题] 软件大小:4.41 MB 软件语言:简体中文 软件类别:国产软件/办公软件 运行环境:WinVista, Win2003, WinXP, Win2000 授权类型:免费版 Word语音打字校对专家是一款针对Word文档语音输入识别和语音合成软件,能在你键盘输入的同时把你在Word中所输入的字符或汉字读出来,这样就可以大幅度提高工作效率了,这点对于用五笔或其它形码的朋友来说就更显得意义重大了,它能避免汉字输入过程中很多最常犯的错误和许多稀奇古怪、莫名其妙的错误。这个软件的另外一个神奇功能就是可以将Word或剪贴板中的文字读出,这样对于编辑校对稿子就很省事了,不必一边看稿子一边看屏幕校对,两眼昏花了。 新增功能: 1.对编排后的文字文件进行朗读。支持记事本、写字板、Word等常用办公软件。 2.对键盘录入的阿拉伯数字、英文字符、中文文字、中英文标点进行语音提示,可避免差错,提高工作效率。 3.对剪贴板上文字文件进行朗读。如在网页上浏览了一段好文章,将文章内容选中,然后按Ctrl+C键就能即时朗读了。 4.可在 Word 2000/XP/2003、记事本、写字板等常用办公软件下正常朗读。 6.新增把Word及TXT等文字文件直接转换成WAV声音文件。 5.新增语音计算器,只要使用键盘或鼠标输入数值,计算机就会自动报出加减乘除等符号名称,并会瞬间给你报出答案。特别适用于需要大量数据统计如财会人员使用。 7.语音朗读校对:当语音输入完一篇文章以后,你可以让计算机用普通话给你朗读一遍。这样,通常需要两个人的校对工作,一个人就可以轻松完成。同时,利用这一功能,你可以把看书变成“听书”。比如,你从网上下载一部小说,然后让计算机用普通话给你朗读,这样,你就可以闭上眼睛“看书”了。 8.在进行文章朗读时,可读出全角和半角标点以及各种常用的符号,如逗号、美元等符号。 9.新增支持英文语音、中文男声语音、中文女声语音等多种语音种类的发声,并能调节语音朗读速度,无论击键的速度有多快,都可以按照先后顺序读出来。 10.新增语音键盘功能,并支持鼠标左、右键的朗读,它是电脑新手及盲人操作键盘鼠标的辅助工具。在QQ聊天中也能正常发声。 11.你还可以使用语音在浏览器上输入文字,可以使用语音来操作浏览器和鼠标、键盘,还可以朗读网页。在电脑上打一篇文章、输入一个表格时最好要一些提示声音,就不会输入错了,利用电脑校对文稿,自己一个人就可以做校对工作。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值