自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

原创 Paddle安装-过程梳理

这里就涉及到语义匹配的工作。(最开始我没有按照它的官网的步骤,靠着自己的经验去下载安装,结果吃了很多亏。但是我看网上普遍用的是3.8,所以为了保险起见我这里用的是python3.8的版本。但其实在这里块我遇见了很多问题,你要自己用nvidia-smi去看看自己的CUDA version,这里我清楚了蛮多nvcc-V和nvidia-smi之间的区别,大家可以参考这篇博客。然后你就是各种安装包,这里可能再安装paddle会有些复杂,你要根据它报的错误,把那些没有的模块全部安装好,最后才能成功安装paddle。

2024-10-02 12:50:43 426

原创 whisper+speaker.diarization.3.1实现根据说话人转文本

whisper模型有好几种,base、medium、large-v1、large-v2,large-v3.我选择的是large-v2,但其实medium的翻译就差不多了,可以满足日常的需要。其实效果最好的是通义听悟,毕竟是阿里做的效果真的非常好,他会对你上传的视频的语音进行分析,不仅能根据说话人进行转录(翻译的准确度非常高)而且还有大模型的辅助,真的强。其实大家要是不想要这么麻烦可以直接调用科大讯飞的API,我感觉效果也挺好的,有各种选择,还能实现实时的转录,真的还不错。这里你可以参考以下这篇博客的内容。

2024-07-31 01:15:47 1421 9

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除