weiquan fan
码龄10年
关注
提问 私信
  • 博客:186,581
    186,581
    总访问量
  • 30
    原创
  • 2,144,153
    排名
  • 250
    粉丝
  • 15
    铁粉

个人简介:华南理工大学在读博士

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:广东省
  • 加入CSDN时间: 2014-11-08
博客简介:

tobefans的博客

查看详细资料
个人成就
  • 获得324次点赞
  • 内容获得63次评论
  • 获得2,215次收藏
  • 代码片获得9,126次分享
创作历程
  • 3篇
    2023年
  • 28篇
    2022年
成就勋章
兴趣领域 设置
  • Python
    pythonpyqt
  • 人工智能
    语音识别深度学习自然语言处理pytorch迁移学习
创作活动更多

AI大模型如何赋能电商行业,引领变革?

如何使用AI技术实现购物推荐、会员分类、商品定价等方面的创新应用?如何运用AI技术提高电商平台的销售效率和用户体验呢?欢迎分享您的看法

186人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

【语音算法】Montreal Forced Aligner教程(MFA,中文语音文本对齐)

Montreal Forced Aligner(MFA)是一种强制对齐工具,可以将音频文件和其对应的文本,转换为音频文件在word、phone等级别的时间对齐的标注。这个工具在语音识别、音频标注和语音合成等领域得到了广泛的应用。本文将为大家介绍如何使用MFA完成音频文件的强制对齐。Montreal Forced Aligner是一种非常有用的工具,可以帮助我们完成音频文件和文本之间的强制对齐,为语音识别、音频标注和语音合成等应用提供了基础的支持。
原创
发布博客 2023.05.11 ·
4130 阅读 ·
3 点赞 ·
2 评论 ·
10 收藏

【深度学习模型】扩散模型(Diffusion Model)基本原理及代码讲解

生成式建模的扩散思想实际上已经在2015年(Sohl-Dickstein等人)提出,然而,直到2019年斯坦福大学(Song等人)、2020年Google Brain(Ho等人)才改进了这个方法,从此引发了生成式模型的新潮流。目前,包括OpenAI的GLIDE和DALL-E 2,海德堡大学的Latent Diffusion和Google Brain的ImageGen,都基于diffusion模型,并可以得到高质量的生成效果。本文以下讲解主要基于DDPM,并适当地增加一些目前有效的改进内容。
原创
发布博客 2023.03.23 ·
61529 阅读 ·
202 点赞 ·
24 评论 ·
1403 收藏

【深度学习模型】ChatGPT原理简述

OpenAI推出人工智能聊天模型ChatGPT,很快引起百万用户注册使用,公众号和热搜不断,迅速火出圈,甚至引起各大公司在聊天对话机器人上的军备竞赛。
原创
发布博客 2023.02.11 ·
10929 阅读 ·
3 点赞 ·
0 评论 ·
31 收藏

【C++】cMakeLists介绍(以简单的OpenCV展示图片为例)

编写CMakeLists.txt可以调用其他的.h头文件和.so/.a库文件,通过跨平台编译工具CMake,将.cpp/.c/.cc文件编译成可执行文件或者新的库文件。
原创
发布博客 2022.11.09 ·
2585 阅读 ·
1 点赞 ·
0 评论 ·
20 收藏

【服务器】NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver.

NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver.
原创
发布博客 2022.10.25 ·
463 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【服务器】root用户修改其它用户的用户名及用户目录

root用户修改其它用户的用户名及用户目录
原创
发布博客 2022.07.29 ·
705 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

【深度学习算法】Contrastive Learning

对比学习是近几年逐渐火起来的方向之一,尤其是自监督学习的崛起以来,受到了广泛的关注。
转载
发布博客 2022.07.04 ·
292 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【语音算法】wav2vec系列原理和使用

wav2vec系列工作由facebook AI Research团队提出,包括wav2vec、vq-wav2vec、wav2vec2.0,效仿nlp上的word2vec,是语音的一种通用特征提取器。本文重点讲解wav2vec2.0模型及其使用方法。
原创
发布博客 2022.06.25 ·
24951 阅读 ·
32 点赞 ·
23 评论 ·
117 收藏

【音频特征】语音特征小结

本文汇总了一些常见或不常见的语音特征。包含语音中音高、语调、能量、节奏变化等重要信息,表现为人昕觉系统感知到的“抑扬顿挫”,在语音信号处理的许多领域都有应用。
原创
发布博客 2022.06.25 ·
5861 阅读 ·
0 点赞 ·
1 评论 ·
28 收藏

【语音算法】语音的预处理--端点检测

语音的实际应用场景中,经常是给定一段包含多句句子的长语音,这就产生了语音端点检测的需求,从而实现对句子的分割。
原创
发布博客 2022.06.25 ·
1605 阅读 ·
1 点赞 ·
0 评论 ·
14 收藏

【语音算法】语音的预处理--去噪

在人工智能中,算法固然很重要,但语音的预处理却直接地决定了算法的性能上限,因此有必要对语音进行去噪处理。通过截取音频中的已知噪音部分,根据该噪音样本对整个音频进行降噪。截取噪音使用ffmpeg,降噪使用sox。...
原创
发布博客 2022.06.25 ·
3982 阅读 ·
5 点赞 ·
0 评论 ·
24 收藏

【服务器】nvidia驱动重装

在重启服务器的时候,发现nvidia驱动自动升级,使用 nvidia-smi 命令会报错如下,故重装nvidia驱动
原创
发布博客 2022.06.24 ·
1752 阅读 ·
0 点赞 ·
0 评论 ·
7 收藏

【软件使用】VSCode的服务器和github同步

近期发现VSCode是一个非常强大的IDE,可以替换掉诸如xshell、winscp等多款软件,实现很好的本地、服务器、甚至github的同步。
原创
发布博客 2022.06.24 ·
3187 阅读 ·
3 点赞 ·
0 评论 ·
17 收藏

【深度学习框架】深度学习主流框架的代码实例

深度学习框架从一开始的 Theano、TensorFlow,到后来封装程度更高的Pytorch、Keras等,层出不穷。此文通过一个简单的分类任务,综合进这些框架的代码。
原创
发布博客 2022.06.24 ·
977 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

【语音识别】详解kaldi的数据和模型文件——librispeech

第一次编译kaldi很可能会缺各种东西,最好有管理员权限来安装。
原创
发布博客 2022.06.24 ·
3186 阅读 ·
2 点赞 ·
0 评论 ·
10 收藏

【语音识别】kaldi的安装和使用案例(librispeech)

按照官网教程,kaldi的安装首先通过git获取项目,再进行编译。如果报错,则可能是相关的依赖项没有安装,可按照提示一步步安装(需要root权限)。
原创
发布博客 2022.06.24 ·
1747 阅读 ·
1 点赞 ·
0 评论 ·
17 收藏

【语音识别】基于keras的简易语音识别

最近忽然看到不是基于kaldi的ASR代码,尝试了一下发现效果还不错,搬上来记录一下。
原创
发布博客 2022.06.24 ·
1304 阅读 ·
3 点赞 ·
0 评论 ·
11 收藏

【语音算法】使用端点检测和百度语音识别技术实现视频的字幕生成

字幕文件中包含很多段信息,每一段表示了一句话的起始结束时间和内容,因此便涉及到了端点检测技术和语音识别技术。3. 字幕生成的其他方式3.1 通过双门限法进行端点检测双门限法的原理是浊音的能量高于清音,清音的过零率高于无声部分。因此,其核心在于:先利用能量,将浊音部分区分出来,再利用过零率,将清音也提取出来,就完成了端点检测。SpeechRcognition 可以说是一款语音识别集合器,共包含了谷歌、必应、IBM等七个识别器:基本使用方法如下:但好像需要翻墙才能用…autosub是一个直接可以生成字
原创
发布博客 2022.06.24 ·
869 阅读 ·
1 点赞 ·
0 评论 ·
4 收藏

【深度学习模型】了解一下Faster RCNN

Faster RCNN 由 论文提出,是继R-CNN和Fast RCNN之后的目标检测上的又一力作。R-CNN提出selective search(SS)来搜索region proposal(RP);Fast RCNN指出不必对每个RP各自提CNN特征,可以对原图提好CNN特征,再将SS找到的RP映射到CNN特征层上;Faster RCNN则提出了RPN层,将特征提取,proposal提取,bounding box整合在了一个网络中,极大地提高了检测速度。...
原创
发布博客 2022.06.24 ·
1526 阅读 ·
0 点赞 ·
0 评论 ·
11 收藏

【界面】使用QT designer、python搭建界面程序

PyQt 是Python语言的GUI编程解决方案之一,是类似于 Tkinter 的一个高级库。 为了更好的辅助PyQt界面的搭建,可以通过Qt Designer完成GUI界面设计。 使用Qt Designer可以通过拖拽、点击完成GUI界面设计,并且设计完成后生成的.ui程序可以通过 pyuic5 命令直接转换成.py文件以供python程序调用。 搭建完界面并写好逻辑后,还可通过 pyinstaller 将.py文件封装成.exe文件,以供没有python解释器的用户使用。 ...
原创
发布博客 2022.06.24 ·
5879 阅读 ·
8 点赞 ·
0 评论 ·
53 收藏
加载更多