自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Pika

自由&热爱

  • 博客(69)
  • 资源 (11)
  • 收藏
  • 关注

原创 搭建自己的AI模型应用网站:JavaScript + Flask-Python + ONNX

本文介绍搭建一个自己的网页来访问基于http接口的神经网络推理服务

2024-06-15 22:06:38 1094 3

原创 用GAN网络生成彩票号码

简单的gan网络实现序列预测

2024-06-11 02:05:33 1993 3

原创 用AI制作历史解说视频:GPT + MidJourney + PiKa + FunSound + 剪映

本文介绍以gpt提供通过图生文,文生视频,语音合成的技术来制作一个ai动画视频

2024-06-09 03:24:09 1717 1

原创 kaldi入门:搭建第一个中文ASR (AISHELL-1)

欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:全新的界面设计 ,将会带来全新的写作体验;在创作中心设置你喜爱的代码高亮样式,Markdown 将代码片显示选择的高亮样式 进行展示;增加了 图片

2020-08-03 15:25:45 9145 11

原创 理解基频和谐波:傅里叶变换中的正交性

基频是信号的最基本频率成分。它是周期性信号中每个周期的重复频率。基频是信号中频率最低的成分,通常表示为 F0。基频决定了信号的整体周期长度,例如,如果一个信号的基频是 100 Hz,那么该信号每秒重复 100 次,每个周期的时长为 1/100 秒。谐波是基频的整数倍频率成分,它们构成了信号的频率谱,反映了信号的复杂性和音质特性。谐波包括基频(第一个谐波)和其整数倍频率的成分。例如,如果基频是 F0,第二谐波是 2F0,第三谐波是 3F0,依此类推。

2024-07-11 10:39:32 997

原创 基于KV Cache构建流式帧级别Transformer实现自回归解码

流式帧级别Transformer是一种特殊的Transformer变体,设计用于流式输入处理。这种模型可以在序列的每个时间步处理输入,并且利用KV Cache存储历史的键和值,避免重复计算,从而提高效率。自回归解码则意味着模型在生成下一个输出时依赖于之前的输出。

2024-07-10 16:41:55 704

原创 开源项目的机遇与挑战

随着全球经济和科技环境的快速变化,开源软件项目的蓬勃发展成为了开发者社区的热门话题。越来越多的开发者和企业选择参与开源项目,以推动技术创新和实现协作共赢。在这篇博客中,我们将探讨当前开源项目的发展趋势、参与开源的经验分享以及开源项目面临的挑战。

2024-07-10 14:33:43 844

原创 基于 KV Cache 实现流式 Self-Attention 序列解码

接下来,我们定义一个流式Self-Attention的类。该类继承自nn.Module在构造函数中,我们初始化了模型维度(model_dim)和注意力窗口大小(),并定义了投影层用于生成查询(Q)、键(K)、值(V)向量。我们还定义了用于存储KV缓存的成员变量k_cache和v_cache。

2024-07-10 14:28:58 1073

原创 生成式人工智能:开发者的得力助手还是职业威胁?

在过去的几年里,生成式人工智能(AIGC)在软件开发领域引发了广泛关注。AI工具在代码生成、错误检测、自动化测试等方面的应用,正在迅速改变开发者的工作方式。AI究竟是在帮助开发者提高效率,还是在逐渐取代他们?这是一个值得深入探讨的问题。

2024-07-08 18:06:28 814

原创 IT专业入门,高考假期预习指南

希望这份IT专业入门的预习指南能帮助你在高考假期中充分利用时间,打下坚实的基础。记住,学习是一个长期的过程,保持好奇心和坚持不懈的努力是成功的关键。祝你在未来的IT学习和职业生涯中取得辉煌的成就!

2024-07-02 09:56:44 907

原创 从音频中提取MFCC特征的过程

在语音信号处理和语音识别领域,梅尔频率倒谱系数(MFCC)是最常用的特征之一。本文将逐步介绍如何从音频中提取MFCC特征,并在每个步骤中进行可视化展示。

2024-06-26 14:26:41 1221

原创 批归一化(Batch Normalization)和层归一化(Layer Normalization)的作用

批归一化是由Sergey Ioffe和Christian Szegedy在2015年提出的一种归一化方法。它的主要思想是在每一层的前向传播中,对每一批(batch)数据进行归一化处理,使得每一层的输入分布更加稳定。层归一化是由Jimmy Lei Ba、Jamie Ryan Kiros和Geoffrey Hinton在2016年提出的一种归一化方法。它的主要思想是在每一层的前向传播中,对每一个样本的所有神经元进行归一化处理。

2024-06-26 11:35:37 585

原创 GPT-5 一年半后发布?对此你有何期待?

GPT-5的到来将标志着AI技术的又一次飞跃。它将在自然语言处理、多模态学习和算法效率等方面实现重大突破,提升智能系统与人类协作的水平。通过制定合理的教育、职业发展和政策策略,我们可以充分利用这一新技术带来的机遇,推动社会和经济的发展。让我们共同期待GPT-5的到来,并积极准备迎接这一新的技术变革,畅想AI赋能下的未来。

2024-06-25 15:41:40 566

原创 超全的语音算法预训练模型收藏地址

Links for pre-trained modelsDescriptionURLSpeech recognition (speech to text, ASR)AddressText-to-speech (TTS)AddressVADAddressKeyword spottingAddressAudio taggingAddressSpeaker identification (Speaker ID)AddressSpoken la

2024-06-21 16:10:50 143

原创 深度判别特征学习在口音识别中的应用

使用深度学习框架进行口音识别是一项与深度说话人识别相似的工作,它们都期望为输入语音提供可识别的表示。相比于说话人识别网络学习的个体级特征,深度口音识别提出了一个更具挑战性的任务,即为说话人创建群体级口音特征。本文中,我们借鉴并改进了深度说话人识别框架来识别口音,具体而言,我们采用卷积循环神经网络作为前端编码器,并使用循环神经网络整合局部特征以生成语句级别的口音表示。

2024-06-19 14:30:52 1445

原创 AI在创造还是毁掉音乐?

最近一个月,轮番上线的音乐大模型,一举将素人生产音乐的门槛降到了最低,并掀起了音乐圈会不会被AI彻底颠覆的讨论。短暂的兴奋后,AI产品的版权归属于谁,创意产业要如何在AI的阴影下生长,都在被更多理性的目光审视。近年来,人工智能在音乐生成方面取得了显著进展。精英创企率先打破技术壁垒,推出了多个音乐生成模型,随后大厂也紧随其后,纷纷布局这一领域。AI在音乐创作中的应用,既带来了机遇,也提出了挑战。通过合理的引导和管理,可以实现技术与艺术的共生发展,推动音乐创作迈向新的高度。

2024-06-19 11:00:01 1689 2

原创 npm发布自己的插件包:新手教程

npm(Node Package Manager)是Node.js的包管理工具,广泛用于JavaScript项目中。本文将为你介绍如何从零开始发布一个npm插件包。

2024-06-18 20:54:48 533

原创 IPython 使用技巧整理

本文整理了一些 IPython 的实用技巧,希望能帮助你更高效地使用 IPython。无论是数据分析、科学计算还是开发工作,IPython 都是一个强大的工具。通过掌握这些技巧,你可以充分利用 IPython 提供的功能,提高工作效率。

2024-06-18 20:04:08 868

原创 PyTorch与TensorFlow模型互转指南

在深度学习领域,PyTorch和TensorFlow是两大广泛使用的框架,但在不同环境中可能需要进行模型转换。本文详细介绍了如何在这两个框架之间进行模型转换的步骤。首先,通过将PyTorch模型导出为ONNX格式,然后使用onnx-tf库将ONNX模型转换为TensorFlow模型。其次,通过tensorflow-onnx库将TensorFlow模型导出为ONNX格式,再使用onnx2pytorch库将ONNX模型转换为PyTorch模型。通过具体的MNIST手写数字识别示例,演示了如何在PyTorch和T

2024-06-17 16:41:58 1664

原创 高考之后,专业与学校如何选择?

随着2024年高考的结束,考生们面临着选择专业或学校的难题。选择专业意味着专注于一个特定领域,直接影响未来的职业发展和兴趣培养;而选择学校则提供了更优越的学术氛围和广泛的社交机会,对个人综合素质提升有重要作用。无论选择哪个优先,都需要结合自身兴趣、职业目标和实际情况做出理性判断。通过了解自己、综合考虑各方面因素以及保持灵活开放的心态,考生们可以做出最适合自己的选择,迎接未来的挑战与机遇。

2024-06-17 16:11:47 825

原创 whisper 模型源码解读

这篇教程介绍了语音识别自回归解码过程,包括音频预处理、音频编码、文本解码和生成文本序列的步骤。具体步骤展示了如何将Mel谱图输入到音频编码器中,生成音频特征,并通过自回归方式逐步生成对应的文本标记序列。最终,通过示例代码演示了从音频输入到文本输出的完整过程。

2024-06-16 21:14:21 403

原创 使用 Nginx 和 SSL 访问 Python Flask 应用的教程

本教程详细介绍了如何使用 Nginx 和 SSL 访问 Python Flask 应用,包括环境准备、安装步骤、Nginx 配置、SSL 证书获取及自动更新。通过这种方式,你可以提高应用的安全性和性能。教程中提供了完整的代码示例和配置文件,帮助你快速上手并成功部署你的 Flask 应用。

2024-06-16 14:39:16 775

原创 网络编程入门介绍:TCP 和 UDP

本文介绍了两种常用的传输层协议:TCP(传输控制协议)和 UDP(用户数据报协议)。TCP 是面向连接的协议,具有高可靠性、流量控制和错误检测功能,适用于文件传输和网页浏览等需要数据完整性的场景。UDP 是无连接的协议,传输速度快但不保证数据包顺序和完整性,适用于视频通话和在线游戏等实时应用。通过图示详细解释了 TCP 的三次握手和四次挥手过程,以及 UDP 的数据传输方式。文章还提供了 Python 实现的 TCP 和 UDP 客户端与服务器示例,帮助读者理解和实践这些协议。

2024-06-15 05:29:52 849

原创 为什么Mamba模型被拒?

本博客探讨了Mamba模型在2024年ICLR会议上被拒绝的原因。尽管Mamba模型展示了在某些方面优于Transformer的潜力,但由于缺少LRA基准测试结果和对困惑度评估指标的质疑,最终未被接受。文章还反思了Word2vec模型的类似经历,强调了学术研究中拒绝并不决定研究的价值或潜在影响。

2024-06-14 17:03:18 499

原创 WebSocket 入门教程

WebSocket 是一种提供全双工通信的协议,通过单个 TCP 连接实现服务器和客户端的实时双向数据传输,适用于在线聊天、游戏和实时数据流等应用。本文介绍了 WebSocket 的工作原理、优势及一个使用 Python 实现的简单示例,展示了如何建立和使用 WebSocket 进行实时通信。

2024-06-14 15:46:46 592

原创 服务器硬件的基础知识

服务器是现代数据中心和企业IT基础设施的核心。本文详细介绍了服务器硬件的各个方面,包括处理器(CPU)、内存(RAM)、存储设备(HDD和SSD)、网络接口卡(NIC)、散热系统和电源。重点讨论了这些组件的特点、选择指南以及它们在提升系统性能和可靠性中的重要性,为读者提供了全面的服务器硬件基础知识。

2024-06-14 09:49:58 1108

原创 TF-IDF算法教程

TF-IDF(Term Frequency-Inverse Document Frequency)是一种常用于文本分析的技术,主要用于评估一个词语在一个文档中的重要程度。本文详细讲解了TF-IDF的基本原理、公式,并通过具体实例分析了词频(TF)和逆文档频率(IDF)的计算过程。通过实例数据展示了如何计算每个词语的TF-IDF值,进而衡量其在文档中的重要性。文章还讨论了TF-IDF的优缺点及其在信息检索、文本分类和文本聚类中的应用场景。最后,提供了使用Python实现TF-IDF算法的示例代码,帮助读者在实

2024-06-13 22:53:19 749

原创 Whisper语音识别 -- 自回归解码分析

whisper的自回归解码分析

2024-06-13 20:51:49 524

原创 大模型的现状与未来:探索腾讯元宝APP及其他AIGC产品

随着近日腾讯元宝APP的正式上线,国内大模型产品又添一员。近年来,随着人工智能技术的快速发展,AIGC(AI生成内容)产品逐渐成为技术与商业应用的热点。各大互联网厂商纷纷推出自己的大模型产品,以期在这片广阔的市场中占据一席之地。在这篇文章中,我们将探讨当前市场上主要的大模型产品、它们的应用场景、用户体验以及未来的发展方向。作为腾讯最新推出的大模型产品,元宝APP旨在为用户提供便捷的AI生成内容服务。从文本生成到图片识别,元宝APP集成了多种功能,帮助用户快速生成高质量的内容。

2024-06-12 15:59:55 848

原创 AI大模型的战场:通用大模型与垂直大模型的对决

在人工智能领域,通用大模型和垂直大模型正在展开一场激烈的对决。通用大模型凭借其广泛的适用性,在多个领域中表现出色,而垂直大模型则专注于特定领域,展现出更高的效率和精准度。本文深入探讨了这两类模型的优劣势,并通过具体实例展示了它们在医疗、金融、教育等领域的实际应用。未来,通用大模型与垂直大模型有望逐渐融合,形成更加高效和智能的AI解决方案。

2024-06-12 14:50:40 674

原创 导出 Whisper 模型到 ONNX

在语音识别领域,Whisper 模型因其出色的性能和灵活性备受关注。为了在更多平台和环境中部署 Whisper 模型,导出为 ONNX 格式是一个有效的途径。ONNX(Open Neural Network Exchange)是一个开放格式,支持不同的深度学习框架之间的模型互操作性。本指南将详细介绍如何将 Whisper 模型导出为 ONNX 格式,并提供测试模型的步骤。本节描述了如何将 Whisper 模型导出为 ONNX 格式。

2024-06-12 14:14:27 652

原创 Perl语言入门学习

本文介绍了Perl编程语言的基本知识,包括安装方法、变量类型(标量、数组、哈希)、条件语句、循环语句、正则表达式的使用以及文件操作等内容。通过多个示例代码,帮助初学者快速上手Perl编程,掌握其核心语法和功能

2024-06-12 11:45:44 728

原创 深度解读ChatGPT基本原理

本文深入解读了ChatGPT的基本原理,介绍了其基于变换器架构的核心技术,详细描述了预训练和微调的训练过程,以及模型在实际应用中的工作机制。同时,探讨了ChatGPT在客户服务、内容创作等领域的应用场景和面临的挑战,展望了其未来发展方向。

2024-06-12 11:14:35 1188

原创 高考后的重要抉择:计算机相关专业是否依旧是“万金油”?

随着2024年高考落幕,数百万高三学生面临选择大学专业的关键抉择。计算机相关专业在过去一直备受青睐,但随着行业竞争加剧和市场饱和度提高,其未来发展潜力和就业前景需要重新审视。本文分析了当前行业现状,从高考生和从业者的不同角度探讨了计算机专业的适应性,并提出了未来热门赛道的推荐

2024-06-11 14:10:56 686

原创 语音研究方向学术和工作资源清单

语音专业同学请看这

2024-06-11 08:29:48 714

原创 Python 调用 C 和 C 调用 Python 方法

python/c 的相互调用

2024-06-10 19:55:22 875

原创 基于神经网络的股票K线数据预测未来涨幅

股票k线滑动窗预测

2024-06-10 03:49:22 538

原创 基于python实现视频和音频长度对齐合成并添加字幕

音视频对齐,自媒体制作

2024-06-09 01:12:40 816 1

原创 使用Python实现GLM解码器的示例(带有Tensor Shape标注)

非自回归解码

2024-06-06 17:34:01 331

原创 python手动搭建transformer,并实现自回归推理

手动实现transformer自回归

2024-06-06 10:25:00 464

生对抗网络训练python代码

生对抗网络训练python代码

2024-06-14

paraformer的cif模块 文本/alpha 强制对齐脚本

paraformer的cif模块 文本/alpha 强制对齐脚本

2024-06-14

funasr 微调数据集制作脚本

funasr 微调数据集制作脚本

2024-06-14

基于paraformer的语音识别pipe

基于paraformer的语音识别pipe

2024-06-14

whisper 服务端部署

whisper 服务端部署

2024-06-14

whisper torch模型转onnx 脚本

whisper torch模型转onnx 脚本

2024-06-14

whisper onnx 解码脚本

whisper onnx 解码脚本

2024-06-14

音视频对齐python脚本

用于自媒体创作的音视频对齐脚本,根据音频长度对视频帧率进行调整,对齐后合成mp4

2024-06-13

用GAN网络生成菜票号码

蔬菜销量数据分布,序列预测

2024-06-11

序列号码数据集:2007-2024年共2550条样本

基于GAN网络的序列号码生成博客:https://blog.csdn.net/Ephemeroptera/article/details/139585310

2024-06-11

onlineblinkdetectdion.zip

基于眨眼状态的在线疲劳检测系统(Matlab-GUI设计)(在r2021b上可运行)

2021-11-19

基于CNN的4位数字验证码识别(字符分割)

请参考我的博客:基于CNN的为数字验证码识别,内容包含验证码去噪,字符分割,CNN搭建,测试集验证,在线识别

2019-04-24

TFRtools工具脚本

基于tensorflow的深度学习框架提供了便携的tfrecord格式数据集读取机制,对此我封装了相关函数,简化了加载数据的过程

2019-04-23

TFRecordTool

tensorflow推荐的TFRecord的保存和读取数据集,支持多线程读取和打乱顺序,使用队列读取,避免了大型数据集对内存的严重占用

2019-04-04

MeanOfWeightedSquaredDotProducts.m

基于论文ACCURATE EYE CENTRE LOCALISATION BY MEANS OF GRADIENTS的matlab实现,或者说是eyelike的matlab版

2019-03-06

EasyPlot1.2

EasyPlot1.2是目前最新版,修复了一些bug,具体实现过程可以参考我的博客。使用该工具前,请先安装easyx(资源里涵盖)

2019-01-03

EasyPlot首发版

作者原创的C++绘图利器,可对在线信号进行实时绘制,感谢大家多多支持!

2018-11-29

susan特征检测c++函数

因为opencv官方api中没有提供susan特征检测函数,因此作者本人根据相关原理编写了检测图像头文件和源文件,,详情请参考我的博客以及代码的说明

2018-11-20

matlab_68_ facelandmarks

matlab 调用DLIB 的C++接口,实现68landmarks检测,详情请看我博客

2018-11-07

matlab 调用face_landmark接口

本人编写的matlab实现调用dlib中人脸landmark提取的接口,具体可参考我的博客

2018-11-06

含(mexw64)dlib的matlab接口

此文件是生成完毕的,解压后请将文件夹替换../dlib/matlab文件夹即可使用

2018-11-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除