自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Pika

自由&热爱

  • 博客(78)
  • 资源 (11)
  • 收藏
  • 关注

原创 搭建自己的AI模型应用网站:JavaScript + Flask-Python + ONNX

本文介绍搭建一个自己的网页来访问基于http接口的神经网络推理服务

2024-06-15 22:06:38 1207 3

原创 用GAN网络生成彩票号码

简单的gan网络实现序列预测

2024-06-11 02:05:33 2095 3

原创 用AI制作历史解说视频:GPT + MidJourney + PiKa + FunSound + 剪映

本文介绍以gpt提供通过图生文,文生视频,语音合成的技术来制作一个ai动画视频

2024-06-09 03:24:09 2006 1

原创 kaldi入门:搭建第一个中文ASR (AISHELL-1)

请在linux环境下开展实验,非常建议熟悉 awk, grep, sed, cut, 等shell 命令快速处理文本,以及学会使用python脚本处理数据等.这里我们根据发音词典来定义我们的声学单元,在kaidi中对声学单元的表述需要以下四个文件:其中简单介绍如下:(1)意义:非静音音素集样例:(2)意义:静音音素集样例:(3)意义:指定静音音素集样例:(3)意义:用于三音素聚类问题。

2020-08-03 15:25:45 10041 12

原创 Seamless:Facebook推出的跨语言语音识别/翻译/合成大模型

Seamless 是一系列 AI 模型,旨在实现更自然和真实的跨语言沟通。SeamlessM4T 是一个支持约 100 种语言的大规模多语言多模态机器翻译模型。SeamlessM4T 是 SeamlessExpressive 的基础,后者能够在不同语言间保留语调和声音风格的元素,同时 SeamlessStreaming 则支持同时翻译和流式语音识别(ASR)。

2024-09-24 18:21:05 808

原创 Funsound: 快速为你的视频加上字幕

是基于阿里达摩院funasr开发的中文语音识别工具,其paraformer非自回归解码速度超快,同时预训练模型识别精度业界领先。本文将简要介绍funsound下如何快速为你的视频添加字幕,十分简单方便。

2024-09-03 14:09:10 232

原创 Funsound语音识别技术之 语音识别多路并发转写

本文主要介绍一种简单的多路语音识别转写部署方案,基于多线程开发实现后台同时转写多个音频文件,这里给出简易实现思路,具体构建服务端/客户端 离线语音转写请参考Funsound工具包代码,本文以部署多个whisper语音转写引擎为例。

2024-08-21 18:44:35 514

原创 Funsound语音识别技术之 基于paraformer的自定义命令(唤醒)词识别

Paraformer在声学后验上通过greedy search得到语音识别结果,对于自定义命令(唤醒)词识别,肯定还得走asr模型。对此我们可以在paraformer上为每个命令词构建模板进行命令匹配,最终结果远远优于科大讯飞语音控制sdk结果。

2024-08-20 16:45:34 499

原创 Funsound语音识别技术之 制作指定领域的语音数据集: 爬取B站音视频 + 基于whisper/funasr 语音识别预标注 + 人工纠正UI

funsound项目下制作某个领域的语音数据:爬取音视频数据,并使用whisper进行标注,人工快速纠正UI

2024-08-20 16:03:04 344

原创 python下麦克风设备选择和录音

python下麦克风设备选择和录音

2024-08-16 13:54:33 275

原创 基于TTS模型快速生成大规模语音数据教程

Worker类是整个代码的核心部分,每个Worker都是一个独立的进程,用于处理文本到语音的转换任务。在__init__方法中,我们初始化了Workerwid: worker 的 ID,用于标识不同的进程。model_id: 模型的 ID,这里使用的是。tasks: 一个Queue对象,用于存储需要处理的任务。outdir: 输出目录,用于存储生成的音频文件。speaker: 声音库,内置了多个情感发音的选项。run方法是Worker的核心逻辑所在,每个Worker。

2024-08-08 17:22:17 371

转载 中文字符串中阿拉伯数字-中文互转

是一个快速转化 `中文数字` 和 `阿拉伯数字` 的工具包!

2024-08-08 15:15:53 38

原创 给本地设备搭建一个云端语音助手

本语音助手实现了从关键词唤醒 (KWS) 到语音识别 (ASR) 再到自然语言理解 (NLU) 的完整流程。该系统可以通过监听用户的音频输入,检测指定的关键词,并将用户的语音转换为文本,最后与预设的命令进行匹配,执行相应的操作(具体实现请参考main.py),为你的设备配置远程语音助手。

2024-08-02 17:21:02 711 1

原创 理解基频和谐波:傅里叶变换中的正交性

基频是信号的最基本频率成分。它是周期性信号中每个周期的重复频率。基频是信号中频率最低的成分,通常表示为 F0。基频决定了信号的整体周期长度,例如,如果一个信号的基频是 100 Hz,那么该信号每秒重复 100 次,每个周期的时长为 1/100 秒。谐波是基频的整数倍频率成分,它们构成了信号的频率谱,反映了信号的复杂性和音质特性。谐波包括基频(第一个谐波)和其整数倍频率的成分。例如,如果基频是 F0,第二谐波是 2F0,第三谐波是 3F0,依此类推。

2024-07-11 10:39:32 1715

原创 基于KV Cache构建流式帧级别Transformer实现自回归解码

流式帧级别Transformer是一种特殊的Transformer变体,设计用于流式输入处理。这种模型可以在序列的每个时间步处理输入,并且利用KV Cache存储历史的键和值,避免重复计算,从而提高效率。自回归解码则意味着模型在生成下一个输出时依赖于之前的输出。

2024-07-10 16:41:55 781

原创 开源项目的机遇与挑战

随着全球经济和科技环境的快速变化,开源软件项目的蓬勃发展成为了开发者社区的热门话题。越来越多的开发者和企业选择参与开源项目,以推动技术创新和实现协作共赢。在这篇博客中,我们将探讨当前开源项目的发展趋势、参与开源的经验分享以及开源项目面临的挑战。

2024-07-10 14:33:43 912 1

原创 基于 KV Cache 实现流式 Self-Attention 序列解码

接下来,我们定义一个流式Self-Attention的类。该类继承自nn.Module在构造函数中,我们初始化了模型维度(model_dim)和注意力窗口大小(),并定义了投影层用于生成查询(Q)、键(K)、值(V)向量。我们还定义了用于存储KV缓存的成员变量k_cache和v_cache。

2024-07-10 14:28:58 1181

原创 生成式人工智能:开发者的得力助手还是职业威胁?

在过去的几年里,生成式人工智能(AIGC)在软件开发领域引发了广泛关注。AI工具在代码生成、错误检测、自动化测试等方面的应用,正在迅速改变开发者的工作方式。AI究竟是在帮助开发者提高效率,还是在逐渐取代他们?这是一个值得深入探讨的问题。

2024-07-08 18:06:28 902

原创 IT专业入门,高考假期预习指南

希望这份IT专业入门的预习指南能帮助你在高考假期中充分利用时间,打下坚实的基础。记住,学习是一个长期的过程,保持好奇心和坚持不懈的努力是成功的关键。祝你在未来的IT学习和职业生涯中取得辉煌的成就!

2024-07-02 09:56:44 946

原创 从音频中提取MFCC特征的过程

在语音信号处理和语音识别领域,梅尔频率倒谱系数(MFCC)是最常用的特征之一。本文将逐步介绍如何从音频中提取MFCC特征,并在每个步骤中进行可视化展示。

2024-06-26 14:26:41 1513

原创 批归一化(Batch Normalization)和层归一化(Layer Normalization)的作用

批归一化是由Sergey Ioffe和Christian Szegedy在2015年提出的一种归一化方法。它的主要思想是在每一层的前向传播中,对每一批(batch)数据进行归一化处理,使得每一层的输入分布更加稳定。层归一化是由Jimmy Lei Ba、Jamie Ryan Kiros和Geoffrey Hinton在2016年提出的一种归一化方法。它的主要思想是在每一层的前向传播中,对每一个样本的所有神经元进行归一化处理。

2024-06-26 11:35:37 723

原创 GPT-5 一年半后发布?对此你有何期待?

GPT-5的到来将标志着AI技术的又一次飞跃。它将在自然语言处理、多模态学习和算法效率等方面实现重大突破,提升智能系统与人类协作的水平。通过制定合理的教育、职业发展和政策策略,我们可以充分利用这一新技术带来的机遇,推动社会和经济的发展。让我们共同期待GPT-5的到来,并积极准备迎接这一新的技术变革,畅想AI赋能下的未来。

2024-06-25 15:41:40 599

原创 超全的语音算法预训练模型收藏地址

Links for pre-trained modelsDescriptionURLSpeech recognition (speech to text, ASR)AddressText-to-speech (TTS)AddressVADAddressKeyword spottingAddressAudio taggingAddressSpeaker identification (Speaker ID)AddressSpoken la

2024-06-21 16:10:50 172

原创 深度判别特征学习在口音识别中的应用

使用深度学习框架进行口音识别是一项与深度说话人识别相似的工作,它们都期望为输入语音提供可识别的表示。相比于说话人识别网络学习的个体级特征,深度口音识别提出了一个更具挑战性的任务,即为说话人创建群体级口音特征。本文中,我们借鉴并改进了深度说话人识别框架来识别口音,具体而言,我们采用卷积循环神经网络作为前端编码器,并使用循环神经网络整合局部特征以生成语句级别的口音表示。

2024-06-19 14:30:52 1495

原创 AI在创造还是毁掉音乐?

最近一个月,轮番上线的音乐大模型,一举将素人生产音乐的门槛降到了最低,并掀起了音乐圈会不会被AI彻底颠覆的讨论。短暂的兴奋后,AI产品的版权归属于谁,创意产业要如何在AI的阴影下生长,都在被更多理性的目光审视。近年来,人工智能在音乐生成方面取得了显著进展。精英创企率先打破技术壁垒,推出了多个音乐生成模型,随后大厂也紧随其后,纷纷布局这一领域。AI在音乐创作中的应用,既带来了机遇,也提出了挑战。通过合理的引导和管理,可以实现技术与艺术的共生发展,推动音乐创作迈向新的高度。

2024-06-19 11:00:01 2467 2

原创 npm发布自己的插件包:新手教程

npm(Node Package Manager)是Node.js的包管理工具,广泛用于JavaScript项目中。本文将为你介绍如何从零开始发布一个npm插件包。

2024-06-18 20:54:48 559

原创 IPython 使用技巧整理

本文整理了一些 IPython 的实用技巧,希望能帮助你更高效地使用 IPython。无论是数据分析、科学计算还是开发工作,IPython 都是一个强大的工具。通过掌握这些技巧,你可以充分利用 IPython 提供的功能,提高工作效率。

2024-06-18 20:04:08 884

原创 PyTorch与TensorFlow模型互转指南

在深度学习领域,PyTorch和TensorFlow是两大广泛使用的框架,但在不同环境中可能需要进行模型转换。本文详细介绍了如何在这两个框架之间进行模型转换的步骤。首先,通过将PyTorch模型导出为ONNX格式,然后使用onnx-tf库将ONNX模型转换为TensorFlow模型。其次,通过tensorflow-onnx库将TensorFlow模型导出为ONNX格式,再使用onnx2pytorch库将ONNX模型转换为PyTorch模型。通过具体的MNIST手写数字识别示例,演示了如何在PyTorch和T

2024-06-17 16:41:58 2513

原创 高考之后,专业与学校如何选择?

随着2024年高考的结束,考生们面临着选择专业或学校的难题。选择专业意味着专注于一个特定领域,直接影响未来的职业发展和兴趣培养;而选择学校则提供了更优越的学术氛围和广泛的社交机会,对个人综合素质提升有重要作用。无论选择哪个优先,都需要结合自身兴趣、职业目标和实际情况做出理性判断。通过了解自己、综合考虑各方面因素以及保持灵活开放的心态,考生们可以做出最适合自己的选择,迎接未来的挑战与机遇。

2024-06-17 16:11:47 853

原创 whisper 模型源码解读

这篇教程介绍了语音识别自回归解码过程,包括音频预处理、音频编码、文本解码和生成文本序列的步骤。具体步骤展示了如何将Mel谱图输入到音频编码器中,生成音频特征,并通过自回归方式逐步生成对应的文本标记序列。最终,通过示例代码演示了从音频输入到文本输出的完整过程。

2024-06-16 21:14:21 554

原创 使用 Nginx 和 SSL 访问 Python Flask 应用的教程

本教程详细介绍了如何使用 Nginx 和 SSL 访问 Python Flask 应用,包括环境准备、安装步骤、Nginx 配置、SSL 证书获取及自动更新。通过这种方式,你可以提高应用的安全性和性能。教程中提供了完整的代码示例和配置文件,帮助你快速上手并成功部署你的 Flask 应用。

2024-06-16 14:39:16 872

原创 网络编程入门介绍:TCP 和 UDP

本文介绍了两种常用的传输层协议:TCP(传输控制协议)和 UDP(用户数据报协议)。TCP 是面向连接的协议,具有高可靠性、流量控制和错误检测功能,适用于文件传输和网页浏览等需要数据完整性的场景。UDP 是无连接的协议,传输速度快但不保证数据包顺序和完整性,适用于视频通话和在线游戏等实时应用。通过图示详细解释了 TCP 的三次握手和四次挥手过程,以及 UDP 的数据传输方式。文章还提供了 Python 实现的 TCP 和 UDP 客户端与服务器示例,帮助读者理解和实践这些协议。

2024-06-15 05:29:52 883

原创 为什么Mamba模型被拒?

本博客探讨了Mamba模型在2024年ICLR会议上被拒绝的原因。尽管Mamba模型展示了在某些方面优于Transformer的潜力,但由于缺少LRA基准测试结果和对困惑度评估指标的质疑,最终未被接受。文章还反思了Word2vec模型的类似经历,强调了学术研究中拒绝并不决定研究的价值或潜在影响。

2024-06-14 17:03:18 571

原创 WebSocket 入门教程

WebSocket 是一种提供全双工通信的协议,通过单个 TCP 连接实现服务器和客户端的实时双向数据传输,适用于在线聊天、游戏和实时数据流等应用。本文介绍了 WebSocket 的工作原理、优势及一个使用 Python 实现的简单示例,展示了如何建立和使用 WebSocket 进行实时通信。

2024-06-14 15:46:46 621

原创 服务器硬件的基础知识

服务器是现代数据中心和企业IT基础设施的核心。本文详细介绍了服务器硬件的各个方面,包括处理器(CPU)、内存(RAM)、存储设备(HDD和SSD)、网络接口卡(NIC)、散热系统和电源。重点讨论了这些组件的特点、选择指南以及它们在提升系统性能和可靠性中的重要性,为读者提供了全面的服务器硬件基础知识。

2024-06-14 09:49:58 1450

原创 TF-IDF算法教程

TF-IDF(Term Frequency-Inverse Document Frequency)是一种常用于文本分析的技术,主要用于评估一个词语在一个文档中的重要程度。本文详细讲解了TF-IDF的基本原理、公式,并通过具体实例分析了词频(TF)和逆文档频率(IDF)的计算过程。通过实例数据展示了如何计算每个词语的TF-IDF值,进而衡量其在文档中的重要性。文章还讨论了TF-IDF的优缺点及其在信息检索、文本分类和文本聚类中的应用场景。最后,提供了使用Python实现TF-IDF算法的示例代码,帮助读者在实

2024-06-13 22:53:19 808

原创 Whisper语音识别 -- 自回归解码分析

whisper的自回归解码分析

2024-06-13 20:51:49 645

原创 大模型的现状与未来:探索腾讯元宝APP及其他AIGC产品

随着近日腾讯元宝APP的正式上线,国内大模型产品又添一员。近年来,随着人工智能技术的快速发展,AIGC(AI生成内容)产品逐渐成为技术与商业应用的热点。各大互联网厂商纷纷推出自己的大模型产品,以期在这片广阔的市场中占据一席之地。在这篇文章中,我们将探讨当前市场上主要的大模型产品、它们的应用场景、用户体验以及未来的发展方向。作为腾讯最新推出的大模型产品,元宝APP旨在为用户提供便捷的AI生成内容服务。从文本生成到图片识别,元宝APP集成了多种功能,帮助用户快速生成高质量的内容。

2024-06-12 15:59:55 884

原创 AI大模型的战场:通用大模型与垂直大模型的对决

在人工智能领域,通用大模型和垂直大模型正在展开一场激烈的对决。通用大模型凭借其广泛的适用性,在多个领域中表现出色,而垂直大模型则专注于特定领域,展现出更高的效率和精准度。本文深入探讨了这两类模型的优劣势,并通过具体实例展示了它们在医疗、金融、教育等领域的实际应用。未来,通用大模型与垂直大模型有望逐渐融合,形成更加高效和智能的AI解决方案。

2024-06-12 14:50:40 733

原创 导出 Whisper 模型到 ONNX

在语音识别领域,Whisper 模型因其出色的性能和灵活性备受关注。为了在更多平台和环境中部署 Whisper 模型,导出为 ONNX 格式是一个有效的途径。ONNX(Open Neural Network Exchange)是一个开放格式,支持不同的深度学习框架之间的模型互操作性。本指南将详细介绍如何将 Whisper 模型导出为 ONNX 格式,并提供测试模型的步骤。本节描述了如何将 Whisper 模型导出为 ONNX 格式。

2024-06-12 14:14:27 1024

生对抗网络训练python代码

生对抗网络训练python代码

2024-06-14

paraformer的cif模块 文本/alpha 强制对齐脚本

paraformer的cif模块 文本/alpha 强制对齐脚本

2024-06-14

funasr 微调数据集制作脚本

funasr 微调数据集制作脚本

2024-06-14

基于paraformer的语音识别pipe

基于paraformer的语音识别pipe

2024-06-14

whisper 服务端部署

whisper 服务端部署

2024-06-14

whisper torch模型转onnx 脚本

whisper torch模型转onnx 脚本

2024-06-14

whisper onnx 解码脚本

whisper onnx 解码脚本

2024-06-14

音视频对齐python脚本

用于自媒体创作的音视频对齐脚本,根据音频长度对视频帧率进行调整,对齐后合成mp4

2024-06-13

用GAN网络生成菜票号码

蔬菜销量数据分布,序列预测

2024-06-11

序列号码数据集:2007-2024年共2550条样本

基于GAN网络的序列号码生成博客:https://blog.csdn.net/Ephemeroptera/article/details/139585310

2024-06-11

onlineblinkdetectdion.zip

基于眨眼状态的在线疲劳检测系统(Matlab-GUI设计)(在r2021b上可运行)

2021-11-19

基于CNN的4位数字验证码识别(字符分割)

请参考我的博客:基于CNN的为数字验证码识别,内容包含验证码去噪,字符分割,CNN搭建,测试集验证,在线识别

2019-04-24

TFRtools工具脚本

基于tensorflow的深度学习框架提供了便携的tfrecord格式数据集读取机制,对此我封装了相关函数,简化了加载数据的过程

2019-04-23

TFRecordTool

tensorflow推荐的TFRecord的保存和读取数据集,支持多线程读取和打乱顺序,使用队列读取,避免了大型数据集对内存的严重占用

2019-04-04

MeanOfWeightedSquaredDotProducts.m

基于论文ACCURATE EYE CENTRE LOCALISATION BY MEANS OF GRADIENTS的matlab实现,或者说是eyelike的matlab版

2019-03-06

EasyPlot1.2

EasyPlot1.2是目前最新版,修复了一些bug,具体实现过程可以参考我的博客。使用该工具前,请先安装easyx(资源里涵盖)

2019-01-03

EasyPlot首发版

作者原创的C++绘图利器,可对在线信号进行实时绘制,感谢大家多多支持!

2018-11-29

susan特征检测c++函数

因为opencv官方api中没有提供susan特征检测函数,因此作者本人根据相关原理编写了检测图像头文件和源文件,,详情请参考我的博客以及代码的说明

2018-11-20

matlab_68_ facelandmarks

matlab 调用DLIB 的C++接口,实现68landmarks检测,详情请看我博客

2018-11-07

matlab 调用face_landmark接口

本人编写的matlab实现调用dlib中人脸landmark提取的接口,具体可参考我的博客

2018-11-06

含(mexw64)dlib的matlab接口

此文件是生成完毕的,解压后请将文件夹替换../dlib/matlab文件夹即可使用

2018-11-03

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除