- 博客(69)
- 资源 (11)
- 收藏
- 关注
![](https://csdnimg.cn/release/blogv2/dist/pc/img/listFixedTop.png)
原创 搭建自己的AI模型应用网站:JavaScript + Flask-Python + ONNX
本文介绍搭建一个自己的网页来访问基于http接口的神经网络推理服务
2024-06-15 22:06:38
1108
3
![](https://csdnimg.cn/release/blogv2/dist/pc/img/listFixedTop.png)
原创 用AI制作历史解说视频:GPT + MidJourney + PiKa + FunSound + 剪映
本文介绍以gpt提供通过图生文,文生视频,语音合成的技术来制作一个ai动画视频
2024-06-09 03:24:09
1751
1
![](https://csdnimg.cn/release/blogv2/dist/pc/img/listFixedTop.png)
原创 kaldi入门:搭建第一个中文ASR (AISHELL-1)
欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:全新的界面设计 ,将会带来全新的写作体验;在创作中心设置你喜爱的代码高亮样式,Markdown 将代码片显示选择的高亮样式 进行展示;增加了 图片
2020-08-03 15:25:45
9255
11
原创 理解基频和谐波:傅里叶变换中的正交性
基频是信号的最基本频率成分。它是周期性信号中每个周期的重复频率。基频是信号中频率最低的成分,通常表示为 F0。基频决定了信号的整体周期长度,例如,如果一个信号的基频是 100 Hz,那么该信号每秒重复 100 次,每个周期的时长为 1/100 秒。谐波是基频的整数倍频率成分,它们构成了信号的频率谱,反映了信号的复杂性和音质特性。谐波包括基频(第一个谐波)和其整数倍频率的成分。例如,如果基频是 F0,第二谐波是 2F0,第三谐波是 3F0,依此类推。
2024-07-11 10:39:32
1024
原创 基于KV Cache构建流式帧级别Transformer实现自回归解码
流式帧级别Transformer是一种特殊的Transformer变体,设计用于流式输入处理。这种模型可以在序列的每个时间步处理输入,并且利用KV Cache存储历史的键和值,避免重复计算,从而提高效率。自回归解码则意味着模型在生成下一个输出时依赖于之前的输出。
2024-07-10 16:41:55
713
原创 开源项目的机遇与挑战
随着全球经济和科技环境的快速变化,开源软件项目的蓬勃发展成为了开发者社区的热门话题。越来越多的开发者和企业选择参与开源项目,以推动技术创新和实现协作共赢。在这篇博客中,我们将探讨当前开源项目的发展趋势、参与开源的经验分享以及开源项目面临的挑战。
2024-07-10 14:33:43
854
1
原创 基于 KV Cache 实现流式 Self-Attention 序列解码
接下来,我们定义一个流式Self-Attention的类。该类继承自nn.Module在构造函数中,我们初始化了模型维度(model_dim)和注意力窗口大小(),并定义了投影层用于生成查询(Q)、键(K)、值(V)向量。我们还定义了用于存储KV缓存的成员变量k_cache和v_cache。
2024-07-10 14:28:58
1096
原创 生成式人工智能:开发者的得力助手还是职业威胁?
在过去的几年里,生成式人工智能(AIGC)在软件开发领域引发了广泛关注。AI工具在代码生成、错误检测、自动化测试等方面的应用,正在迅速改变开发者的工作方式。AI究竟是在帮助开发者提高效率,还是在逐渐取代他们?这是一个值得深入探讨的问题。
2024-07-08 18:06:28
830
原创 IT专业入门,高考假期预习指南
希望这份IT专业入门的预习指南能帮助你在高考假期中充分利用时间,打下坚实的基础。记住,学习是一个长期的过程,保持好奇心和坚持不懈的努力是成功的关键。祝你在未来的IT学习和职业生涯中取得辉煌的成就!
2024-07-02 09:56:44
915
原创 从音频中提取MFCC特征的过程
在语音信号处理和语音识别领域,梅尔频率倒谱系数(MFCC)是最常用的特征之一。本文将逐步介绍如何从音频中提取MFCC特征,并在每个步骤中进行可视化展示。
2024-06-26 14:26:41
1273
原创 批归一化(Batch Normalization)和层归一化(Layer Normalization)的作用
批归一化是由Sergey Ioffe和Christian Szegedy在2015年提出的一种归一化方法。它的主要思想是在每一层的前向传播中,对每一批(batch)数据进行归一化处理,使得每一层的输入分布更加稳定。层归一化是由Jimmy Lei Ba、Jamie Ryan Kiros和Geoffrey Hinton在2016年提出的一种归一化方法。它的主要思想是在每一层的前向传播中,对每一个样本的所有神经元进行归一化处理。
2024-06-26 11:35:37
594
原创 GPT-5 一年半后发布?对此你有何期待?
GPT-5的到来将标志着AI技术的又一次飞跃。它将在自然语言处理、多模态学习和算法效率等方面实现重大突破,提升智能系统与人类协作的水平。通过制定合理的教育、职业发展和政策策略,我们可以充分利用这一新技术带来的机遇,推动社会和经济的发展。让我们共同期待GPT-5的到来,并积极准备迎接这一新的技术变革,畅想AI赋能下的未来。
2024-06-25 15:41:40
571
原创 超全的语音算法预训练模型收藏地址
Links for pre-trained modelsDescriptionURLSpeech recognition (speech to text, ASR)AddressText-to-speech (TTS)AddressVADAddressKeyword spottingAddressAudio taggingAddressSpeaker identification (Speaker ID)AddressSpoken la
2024-06-21 16:10:50
146
原创 深度判别特征学习在口音识别中的应用
使用深度学习框架进行口音识别是一项与深度说话人识别相似的工作,它们都期望为输入语音提供可识别的表示。相比于说话人识别网络学习的个体级特征,深度口音识别提出了一个更具挑战性的任务,即为说话人创建群体级口音特征。本文中,我们借鉴并改进了深度说话人识别框架来识别口音,具体而言,我们采用卷积循环神经网络作为前端编码器,并使用循环神经网络整合局部特征以生成语句级别的口音表示。
2024-06-19 14:30:52
1452
原创 AI在创造还是毁掉音乐?
最近一个月,轮番上线的音乐大模型,一举将素人生产音乐的门槛降到了最低,并掀起了音乐圈会不会被AI彻底颠覆的讨论。短暂的兴奋后,AI产品的版权归属于谁,创意产业要如何在AI的阴影下生长,都在被更多理性的目光审视。近年来,人工智能在音乐生成方面取得了显著进展。精英创企率先打破技术壁垒,推出了多个音乐生成模型,随后大厂也紧随其后,纷纷布局这一领域。AI在音乐创作中的应用,既带来了机遇,也提出了挑战。通过合理的引导和管理,可以实现技术与艺术的共生发展,推动音乐创作迈向新的高度。
2024-06-19 11:00:01
1817
2
原创 npm发布自己的插件包:新手教程
npm(Node Package Manager)是Node.js的包管理工具,广泛用于JavaScript项目中。本文将为你介绍如何从零开始发布一个npm插件包。
2024-06-18 20:54:48
536
原创 IPython 使用技巧整理
本文整理了一些 IPython 的实用技巧,希望能帮助你更高效地使用 IPython。无论是数据分析、科学计算还是开发工作,IPython 都是一个强大的工具。通过掌握这些技巧,你可以充分利用 IPython 提供的功能,提高工作效率。
2024-06-18 20:04:08
872
原创 PyTorch与TensorFlow模型互转指南
在深度学习领域,PyTorch和TensorFlow是两大广泛使用的框架,但在不同环境中可能需要进行模型转换。本文详细介绍了如何在这两个框架之间进行模型转换的步骤。首先,通过将PyTorch模型导出为ONNX格式,然后使用onnx-tf库将ONNX模型转换为TensorFlow模型。其次,通过tensorflow-onnx库将TensorFlow模型导出为ONNX格式,再使用onnx2pytorch库将ONNX模型转换为PyTorch模型。通过具体的MNIST手写数字识别示例,演示了如何在PyTorch和T
2024-06-17 16:41:58
1772
原创 高考之后,专业与学校如何选择?
随着2024年高考的结束,考生们面临着选择专业或学校的难题。选择专业意味着专注于一个特定领域,直接影响未来的职业发展和兴趣培养;而选择学校则提供了更优越的学术氛围和广泛的社交机会,对个人综合素质提升有重要作用。无论选择哪个优先,都需要结合自身兴趣、职业目标和实际情况做出理性判断。通过了解自己、综合考虑各方面因素以及保持灵活开放的心态,考生们可以做出最适合自己的选择,迎接未来的挑战与机遇。
2024-06-17 16:11:47
837
原创 whisper 模型源码解读
这篇教程介绍了语音识别自回归解码过程,包括音频预处理、音频编码、文本解码和生成文本序列的步骤。具体步骤展示了如何将Mel谱图输入到音频编码器中,生成音频特征,并通过自回归方式逐步生成对应的文本标记序列。最终,通过示例代码演示了从音频输入到文本输出的完整过程。
2024-06-16 21:14:21
438
原创 使用 Nginx 和 SSL 访问 Python Flask 应用的教程
本教程详细介绍了如何使用 Nginx 和 SSL 访问 Python Flask 应用,包括环境准备、安装步骤、Nginx 配置、SSL 证书获取及自动更新。通过这种方式,你可以提高应用的安全性和性能。教程中提供了完整的代码示例和配置文件,帮助你快速上手并成功部署你的 Flask 应用。
2024-06-16 14:39:16
782
原创 网络编程入门介绍:TCP 和 UDP
本文介绍了两种常用的传输层协议:TCP(传输控制协议)和 UDP(用户数据报协议)。TCP 是面向连接的协议,具有高可靠性、流量控制和错误检测功能,适用于文件传输和网页浏览等需要数据完整性的场景。UDP 是无连接的协议,传输速度快但不保证数据包顺序和完整性,适用于视频通话和在线游戏等实时应用。通过图示详细解释了 TCP 的三次握手和四次挥手过程,以及 UDP 的数据传输方式。文章还提供了 Python 实现的 TCP 和 UDP 客户端与服务器示例,帮助读者理解和实践这些协议。
2024-06-15 05:29:52
858
原创 为什么Mamba模型被拒?
本博客探讨了Mamba模型在2024年ICLR会议上被拒绝的原因。尽管Mamba模型展示了在某些方面优于Transformer的潜力,但由于缺少LRA基准测试结果和对困惑度评估指标的质疑,最终未被接受。文章还反思了Word2vec模型的类似经历,强调了学术研究中拒绝并不决定研究的价值或潜在影响。
2024-06-14 17:03:18
504
原创 WebSocket 入门教程
WebSocket 是一种提供全双工通信的协议,通过单个 TCP 连接实现服务器和客户端的实时双向数据传输,适用于在线聊天、游戏和实时数据流等应用。本文介绍了 WebSocket 的工作原理、优势及一个使用 Python 实现的简单示例,展示了如何建立和使用 WebSocket 进行实时通信。
2024-06-14 15:46:46
594
原创 服务器硬件的基础知识
服务器是现代数据中心和企业IT基础设施的核心。本文详细介绍了服务器硬件的各个方面,包括处理器(CPU)、内存(RAM)、存储设备(HDD和SSD)、网络接口卡(NIC)、散热系统和电源。重点讨论了这些组件的特点、选择指南以及它们在提升系统性能和可靠性中的重要性,为读者提供了全面的服务器硬件基础知识。
2024-06-14 09:49:58
1148
原创 TF-IDF算法教程
TF-IDF(Term Frequency-Inverse Document Frequency)是一种常用于文本分析的技术,主要用于评估一个词语在一个文档中的重要程度。本文详细讲解了TF-IDF的基本原理、公式,并通过具体实例分析了词频(TF)和逆文档频率(IDF)的计算过程。通过实例数据展示了如何计算每个词语的TF-IDF值,进而衡量其在文档中的重要性。文章还讨论了TF-IDF的优缺点及其在信息检索、文本分类和文本聚类中的应用场景。最后,提供了使用Python实现TF-IDF算法的示例代码,帮助读者在实
2024-06-13 22:53:19
754
原创 大模型的现状与未来:探索腾讯元宝APP及其他AIGC产品
随着近日腾讯元宝APP的正式上线,国内大模型产品又添一员。近年来,随着人工智能技术的快速发展,AIGC(AI生成内容)产品逐渐成为技术与商业应用的热点。各大互联网厂商纷纷推出自己的大模型产品,以期在这片广阔的市场中占据一席之地。在这篇文章中,我们将探讨当前市场上主要的大模型产品、它们的应用场景、用户体验以及未来的发展方向。作为腾讯最新推出的大模型产品,元宝APP旨在为用户提供便捷的AI生成内容服务。从文本生成到图片识别,元宝APP集成了多种功能,帮助用户快速生成高质量的内容。
2024-06-12 15:59:55
853
原创 AI大模型的战场:通用大模型与垂直大模型的对决
在人工智能领域,通用大模型和垂直大模型正在展开一场激烈的对决。通用大模型凭借其广泛的适用性,在多个领域中表现出色,而垂直大模型则专注于特定领域,展现出更高的效率和精准度。本文深入探讨了这两类模型的优劣势,并通过具体实例展示了它们在医疗、金融、教育等领域的实际应用。未来,通用大模型与垂直大模型有望逐渐融合,形成更加高效和智能的AI解决方案。
2024-06-12 14:50:40
681
原创 导出 Whisper 模型到 ONNX
在语音识别领域,Whisper 模型因其出色的性能和灵活性备受关注。为了在更多平台和环境中部署 Whisper 模型,导出为 ONNX 格式是一个有效的途径。ONNX(Open Neural Network Exchange)是一个开放格式,支持不同的深度学习框架之间的模型互操作性。本指南将详细介绍如何将 Whisper 模型导出为 ONNX 格式,并提供测试模型的步骤。本节描述了如何将 Whisper 模型导出为 ONNX 格式。
2024-06-12 14:14:27
686
原创 Perl语言入门学习
本文介绍了Perl编程语言的基本知识,包括安装方法、变量类型(标量、数组、哈希)、条件语句、循环语句、正则表达式的使用以及文件操作等内容。通过多个示例代码,帮助初学者快速上手Perl编程,掌握其核心语法和功能
2024-06-12 11:45:44
734
原创 深度解读ChatGPT基本原理
本文深入解读了ChatGPT的基本原理,介绍了其基于变换器架构的核心技术,详细描述了预训练和微调的训练过程,以及模型在实际应用中的工作机制。同时,探讨了ChatGPT在客户服务、内容创作等领域的应用场景和面临的挑战,展望了其未来发展方向。
2024-06-12 11:14:35
1190
原创 高考后的重要抉择:计算机相关专业是否依旧是“万金油”?
随着2024年高考落幕,数百万高三学生面临选择大学专业的关键抉择。计算机相关专业在过去一直备受青睐,但随着行业竞争加剧和市场饱和度提高,其未来发展潜力和就业前景需要重新审视。本文分析了当前行业现状,从高考生和从业者的不同角度探讨了计算机专业的适应性,并提出了未来热门赛道的推荐
2024-06-11 14:10:56
688
序列号码数据集:2007-2024年共2550条样本
2024-06-11
MeanOfWeightedSquaredDotProducts.m
2019-03-06
susan特征检测c++函数
2018-11-20
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人