Pika在线-CSDN博客

原创搭建自己的AI模型应用网站：JavaScript + Flask-Python + ONNX

本文介绍搭建一个自己的网页来访问基于http接口的神经网络推理服务

2024-06-15 22:06:38 1804 3

原创用GAN网络生成彩票号码

简单的gan网络实现序列预测

2024-06-11 02:05:33 3104 3

原创用AI制作历史解说视频：GPT + MidJourney + PiKa + FunSound + 剪映

本文介绍以gpt提供通过图生文，文生视频，语音合成的技术来制作一个ai动画视频

2024-06-09 03:24:09 5598 1

原创 kaldi入门：搭建第一个中文ASR (AISHELL-1)

请在linux环境下开展实验，非常建议熟悉 awk, grep, sed, cut, 等shell 命令快速处理文本，以及学会使用python脚本处理数据等.这里我们根据发音词典来定义我们的声学单元，在kaidi中对声学单元的表述需要以下四个文件：其中简单介绍如下：(1)意义：非静音音素集样例：(2)意义：静音音素集样例：(3)意义：指定静音音素集样例：(3)意义：用于三音素聚类问题。

2020-08-03 15:25:45 12729 13

ONNX 是一种开放的神经网络交换格式，旨在促进深度学习模型在不同平台和工具之间的共享和移植。它支持包括PyTorch、TensorFlow等多种主流框架，可以通过ONNX Runtime库高效推理。通过将模型转换为ONNX格式，我们可以获得跨平台部署的优势，并利用ONNX Runtime加速推理过程。通过将BERT模型导出为ONNX并使用ONNX Runtime进行推理，我们可以大幅度提升推理速度，同时保持了高精度的句子嵌入计算。

2024-10-25 17:16:42 1720 1

原创聚类算法的代码解析与实现

以下是"""return Melse:return AL = D - Mreturn Lelse:self.min_num_spks = min_num_spks # 最小聚类数（最小说话者数目）self.max_num_spks = max_num_spks # 最大聚类数（最大说话者数目）self.pval = pval # p值，用于p-剪枝（p-pruning）作用：定义了一个类，用于执行谱聚类算法。参数：最小聚类数量，默认为1。：最大聚类数量，默认为15。pval。

2024-10-21 11:09:17 1346

原创通过python-api使用openai的gpt

目前，OpenAI 提供的 GPT 模型可以通过其提供的 API 进行访问。

2024-09-29 14:29:26 1526

原创 Funsound 跨语言语音翻译

对任意语言的音视频识别得到目标语言文字结果，支持100种语言互译，视频支持在线添加字幕。实现原理由whisper进行多语言语音识别，ChatGPT对识别结果进行润色翻译。

2024-09-27 14:01:25 537

原创 Seamless:Facebook推出的跨语言语音识别/翻译/合成大模型

Seamless 是一系列 AI 模型，旨在实现更自然和真实的跨语言沟通。SeamlessM4T 是一个支持约 100 种语言的大规模多语言多模态机器翻译模型。SeamlessM4T 是 SeamlessExpressive 的基础，后者能够在不同语言间保留语调和声音风格的元素，同时 SeamlessStreaming 则支持同时翻译和流式语音识别（ASR）。

2024-09-24 18:21:05 2008

原创 Funsound: 快速为你的视频加上字幕

是基于阿里达摩院funasr开发的中文语音识别工具，其paraformer非自回归解码速度超快，同时预训练模型识别精度业界领先。本文将简要介绍funsound下如何快速为你的视频添加字幕，十分简单方便。

2024-09-03 14:09:10 488

原创 Funsound语音识别技术之语音识别多路并发转写

本文主要介绍一种简单的多路语音识别转写部署方案，基于多线程开发实现后台同时转写多个音频文件，这里给出简易实现思路，具体构建服务端/客户端离线语音转写请参考Funsound工具包代码，本文以部署多个whisper语音转写引擎为例。

2024-08-21 18:44:35 1326 1

原创 Funsound语音识别技术之基于paraformer的自定义命令（唤醒）词识别

Paraformer在声学后验上通过greedy search得到语音识别结果，对于自定义命令（唤醒）词识别，肯定还得走asr模型。对此我们可以在paraformer上为每个命令词构建模板进行命令匹配，最终结果远远优于科大讯飞语音控制sdk结果。

2024-08-20 16:45:34 1413 2

原创 Funsound语音识别技术之制作指定领域的语音数据集: 爬取B站音视频 + 基于whisper/funasr 语音识别预标注 + 人工纠正UI

funsound项目下制作某个领域的语音数据：爬取音视频数据，并使用whisper进行标注，人工快速纠正UI

2024-08-20 16:03:04 848

原创 python下麦克风设备选择和录音

python下麦克风设备选择和录音

2024-08-16 13:54:33 965

原创基于TTS模型快速生成大规模语音数据教程

Worker类是整个代码的核心部分，每个Worker都是一个独立的进程，用于处理文本到语音的转换任务。在__init__方法中，我们初始化了Workerwid: worker 的 ID，用于标识不同的进程。model_id: 模型的 ID，这里使用的是。tasks: 一个Queue对象，用于存储需要处理的任务。outdir: 输出目录，用于存储生成的音频文件。speaker: 声音库，内置了多个情感发音的选项。run方法是Worker的核心逻辑所在，每个Worker。

2024-08-08 17:22:17 943

转载中文字符串中阿拉伯数字-中文互转

是一个快速转化 `中文数字` 和 `阿拉伯数字` 的工具包！

2024-08-08 15:15:53 366

原创给本地设备搭建一个云端语音助手

本语音助手实现了从关键词唤醒 (KWS) 到语音识别 (ASR) 再到自然语言理解 (NLU) 的完整流程。该系统可以通过监听用户的音频输入，检测指定的关键词，并将用户的语音转换为文本，最后与预设的命令进行匹配，执行相应的操作（具体实现请参考main.py），为你的设备配置远程语音助手。

2024-08-02 17:21:02 1679 2

原创理解基频和谐波：傅里叶变换中的正交性

基频是信号的最基本频率成分。它是周期性信号中每个周期的重复频率。基频是信号中频率最低的成分，通常表示为 F0。基频决定了信号的整体周期长度，例如，如果一个信号的基频是 100 Hz，那么该信号每秒重复 100 次，每个周期的时长为 1/100 秒。谐波是基频的整数倍频率成分，它们构成了信号的频率谱，反映了信号的复杂性和音质特性。谐波包括基频（第一个谐波）和其整数倍频率的成分。例如，如果基频是 F0，第二谐波是 2F0，第三谐波是 3F0，依此类推。

2024-07-11 10:39:32 4966

原创基于KV Cache构建流式帧级别Transformer实现自回归解码

流式帧级别Transformer是一种特殊的Transformer变体，设计用于流式输入处理。这种模型可以在序列的每个时间步处理输入，并且利用KV Cache存储历史的键和值，避免重复计算，从而提高效率。自回归解码则意味着模型在生成下一个输出时依赖于之前的输出。

2024-07-10 16:41:55 1266

原创开源项目的机遇与挑战

随着全球经济和科技环境的快速变化，开源软件项目的蓬勃发展成为了开发者社区的热门话题。越来越多的开发者和企业选择参与开源项目，以推动技术创新和实现协作共赢。在这篇博客中，我们将探讨当前开源项目的发展趋势、参与开源的经验分享以及开源项目面临的挑战。

2024-07-10 14:33:43 1112 1

原创基于 KV Cache 实现流式 Self-Attention 序列解码

接下来，我们定义一个流式Self-Attention的类。该类继承自nn.Module在构造函数中，我们初始化了模型维度（model_dim）和注意力窗口大小（），并定义了投影层用于生成查询（Q）、键（K）、值（V）向量。我们还定义了用于存储KV缓存的成员变量k_cache和v_cache。

2024-07-10 14:28:58 1878

原创生成式人工智能：开发者的得力助手还是职业威胁？

在过去的几年里，生成式人工智能（AIGC）在软件开发领域引发了广泛关注。AI工具在代码生成、错误检测、自动化测试等方面的应用，正在迅速改变开发者的工作方式。AI究竟是在帮助开发者提高效率，还是在逐渐取代他们？这是一个值得深入探讨的问题。

2024-07-08 18:06:28 1134

原创 IT专业入门，高考假期预习指南

希望这份IT专业入门的预习指南能帮助你在高考假期中充分利用时间，打下坚实的基础。记住，学习是一个长期的过程，保持好奇心和坚持不懈的努力是成功的关键。祝你在未来的IT学习和职业生涯中取得辉煌的成就！

2024-07-02 09:56:44 1080

原创从音频中提取MFCC特征的过程

在语音信号处理和语音识别领域，梅尔频率倒谱系数（MFCC）是最常用的特征之一。本文将逐步介绍如何从音频中提取MFCC特征，并在每个步骤中进行可视化展示。

2024-06-26 14:26:41 2427

原创批归一化（Batch Normalization）和层归一化（Layer Normalization）的作用

批归一化是由Sergey Ioffe和Christian Szegedy在2015年提出的一种归一化方法。它的主要思想是在每一层的前向传播中，对每一批（batch）数据进行归一化处理，使得每一层的输入分布更加稳定。层归一化是由Jimmy Lei Ba、Jamie Ryan Kiros和Geoffrey Hinton在2016年提出的一种归一化方法。它的主要思想是在每一层的前向传播中，对每一个样本的所有神经元进行归一化处理。

2024-06-26 11:35:37 1972

原创 GPT-5 一年半后发布？对此你有何期待？

GPT-5的到来将标志着AI技术的又一次飞跃。它将在自然语言处理、多模态学习和算法效率等方面实现重大突破，提升智能系统与人类协作的水平。通过制定合理的教育、职业发展和政策策略，我们可以充分利用这一新技术带来的机遇，推动社会和经济的发展。让我们共同期待GPT-5的到来，并积极准备迎接这一新的技术变革，畅想AI赋能下的未来。

2024-06-25 15:41:40 707

原创超全的语音算法预训练模型收藏地址

Links for pre-trained modelsDescriptionURLSpeech recognition (speech to text, ASR)AddressText-to-speech (TTS)AddressVADAddressKeyword spottingAddressAudio taggingAddressSpeaker identification (Speaker ID)AddressSpoken la

2024-06-21 16:10:50 324

原创深度判别特征学习在口音识别中的应用

使用深度学习框架进行口音识别是一项与深度说话人识别相似的工作，它们都期望为输入语音提供可识别的表示。相比于说话人识别网络学习的个体级特征，深度口音识别提出了一个更具挑战性的任务，即为说话人创建群体级口音特征。本文中，我们借鉴并改进了深度说话人识别框架来识别口音，具体而言，我们采用卷积循环神经网络作为前端编码器，并使用循环神经网络整合局部特征以生成语句级别的口音表示。

2024-06-19 14:30:52 2123 1

原创 AI在创造还是毁掉音乐？

最近一个月，轮番上线的音乐大模型，一举将素人生产音乐的门槛降到了最低，并掀起了音乐圈会不会被AI彻底颠覆的讨论。短暂的兴奋后，AI产品的版权归属于谁，创意产业要如何在AI的阴影下生长，都在被更多理性的目光审视。近年来，人工智能在音乐生成方面取得了显著进展。精英创企率先打破技术壁垒，推出了多个音乐生成模型，随后大厂也紧随其后，纷纷布局这一领域。AI在音乐创作中的应用，既带来了机遇，也提出了挑战。通过合理的引导和管理，可以实现技术与艺术的共生发展，推动音乐创作迈向新的高度。

2024-06-19 11:00:01 2873 2

原创 npm发布自己的插件包：新手教程

npm（Node Package Manager）是Node.js的包管理工具，广泛用于JavaScript项目中。本文将为你介绍如何从零开始发布一个npm插件包。

2024-06-18 20:54:48 729

原创 IPython 使用技巧整理

本文整理了一些 IPython 的实用技巧，希望能帮助你更高效地使用 IPython。无论是数据分析、科学计算还是开发工作，IPython 都是一个强大的工具。通过掌握这些技巧，你可以充分利用 IPython 提供的功能，提高工作效率。

2024-06-18 20:04:08 1015

原创 PyTorch与TensorFlow模型互转指南

在深度学习领域，PyTorch和TensorFlow是两大广泛使用的框架，但在不同环境中可能需要进行模型转换。本文详细介绍了如何在这两个框架之间进行模型转换的步骤。首先，通过将PyTorch模型导出为ONNX格式，然后使用onnx-tf库将ONNX模型转换为TensorFlow模型。其次，通过tensorflow-onnx库将TensorFlow模型导出为ONNX格式，再使用onnx2pytorch库将ONNX模型转换为PyTorch模型。通过具体的MNIST手写数字识别示例，演示了如何在PyTorch和T

2024-06-17 16:41:58 6512

原创高考之后，专业与学校如何选择？

随着2024年高考的结束，考生们面临着选择专业或学校的难题。选择专业意味着专注于一个特定领域，直接影响未来的职业发展和兴趣培养；而选择学校则提供了更优越的学术氛围和广泛的社交机会，对个人综合素质提升有重要作用。无论选择哪个优先，都需要结合自身兴趣、职业目标和实际情况做出理性判断。通过了解自己、综合考虑各方面因素以及保持灵活开放的心态，考生们可以做出最适合自己的选择，迎接未来的挑战与机遇。

2024-06-17 16:11:47 1035

原创 whisper 模型源码解读

这篇教程介绍了语音识别自回归解码过程，包括音频预处理、音频编码、文本解码和生成文本序列的步骤。具体步骤展示了如何将Mel谱图输入到音频编码器中，生成音频特征，并通过自回归方式逐步生成对应的文本标记序列。最终，通过示例代码演示了从音频输入到文本输出的完整过程。

2024-06-16 21:14:21 1595

原创使用 Nginx 和 SSL 访问 Python Flask 应用的教程

本教程详细介绍了如何使用 Nginx 和 SSL 访问 Python Flask 应用，包括环境准备、安装步骤、Nginx 配置、SSL 证书获取及自动更新。通过这种方式，你可以提高应用的安全性和性能。教程中提供了完整的代码示例和配置文件，帮助你快速上手并成功部署你的 Flask 应用。

2024-06-16 14:39:16 1243

原创网络编程入门介绍：TCP 和 UDP

本文介绍了两种常用的传输层协议：TCP（传输控制协议）和 UDP（用户数据报协议）。TCP 是面向连接的协议，具有高可靠性、流量控制和错误检测功能，适用于文件传输和网页浏览等需要数据完整性的场景。UDP 是无连接的协议，传输速度快但不保证数据包顺序和完整性，适用于视频通话和在线游戏等实时应用。通过图示详细解释了 TCP 的三次握手和四次挥手过程，以及 UDP 的数据传输方式。文章还提供了 Python 实现的 TCP 和 UDP 客户端与服务器示例，帮助读者理解和实践这些协议。

2024-06-15 05:29:52 1083

原创为什么Mamba模型被拒？

本博客探讨了Mamba模型在2024年ICLR会议上被拒绝的原因。尽管Mamba模型展示了在某些方面优于Transformer的潜力，但由于缺少LRA基准测试结果和对困惑度评估指标的质疑，最终未被接受。文章还反思了Word2vec模型的类似经历，强调了学术研究中拒绝并不决定研究的价值或潜在影响。

2024-06-14 17:03:18 1148

原创 WebSocket 入门教程

WebSocket 是一种提供全双工通信的协议，通过单个 TCP 连接实现服务器和客户端的实时双向数据传输，适用于在线聊天、游戏和实时数据流等应用。本文介绍了 WebSocket 的工作原理、优势及一个使用 Python 实现的简单示例，展示了如何建立和使用 WebSocket 进行实时通信。

2024-06-14 15:46:46 789

原创服务器硬件的基础知识

服务器是现代数据中心和企业IT基础设施的核心。本文详细介绍了服务器硬件的各个方面，包括处理器（CPU）、内存（RAM）、存储设备（HDD和SSD）、网络接口卡（NIC）、散热系统和电源。重点讨论了这些组件的特点、选择指南以及它们在提升系统性能和可靠性中的重要性，为读者提供了全面的服务器硬件基础知识。

2024-06-14 09:49:58 2099

原创 TF-IDF算法教程

TF-IDF（Term Frequency-Inverse Document Frequency）是一种常用于文本分析的技术，主要用于评估一个词语在一个文档中的重要程度。本文详细讲解了TF-IDF的基本原理、公式，并通过具体实例分析了词频（TF）和逆文档频率（IDF）的计算过程。通过实例数据展示了如何计算每个词语的TF-IDF值，进而衡量其在文档中的重要性。文章还讨论了TF-IDF的优缺点及其在信息检索、文本分类和文本聚类中的应用场景。最后，提供了使用Python实现TF-IDF算法的示例代码，帮助读者在实

2024-06-13 22:53:19 1154

TA关注的人

生对抗网络训练python代码

paraformer的cif模块 文本/alpha 强制对齐脚本

funasr 微调数据集制作脚本

基于paraformer的语音识别pipe

whisper 服务端部署

whisper torch模型转onnx 脚本

whisper onnx 解码脚本

用GAN网络生成菜票号码

音视频对齐python脚本

序列号码数据集：2007-2024年共2550条样本

含（mexw64）dlib的matlab接口

基于CNN的4位数字验证码识别（字符分割）

EasyPlot1.2

susan特征检测c++函数

TFRecordTool

onlineblinkdetectdion.zip

MeanOfWeightedSquaredDotProducts.m

matlab_68_ facelandmarks

matlab 调用face_landmark接口

TFRtools工具脚本

EasyPlot首发版

实时声纹降噪算法进行无关说话人语音抑制

paraformer的cif模块文本/alpha 强制对齐脚本