音视频
文章平均质量分 86
davidullua
前华为人,ATM架构师,日常开发经验分享,互联网架构分享
展开
-
向量检索(二)Faiss 不同索引的性能
faiss 中不同算法构建索引,不同的搜索参数, 搜索的性能和召回率差异巨大。 本文在召回率比较好的情况下 (>0.99),对比常用的 IVF 索引和 HNSW 索引的性能差异原创 2022-11-08 16:50:53 · 1944 阅读 · 0 评论 -
如何用4行 C 代码实现一个跨平台的命令行 mp3 播放器
要实现一个 mp3 音乐播放器,首先要有能够播放音乐的类库,并且支持 mp3 协议。网上没有看到代码简洁清晰的最小命令行的 mp3 播放器的实现。 调研了几个类库之后实现了一个,供需要的朋友参考。原创 2022-09-09 23:56:48 · 1456 阅读 · 0 评论 -
搭建一个家用的媒体服务器(支持电影、音乐和电子书)
搭建家用的媒体服务器,用来在不同的设备上面方便得看电影,听音乐,甚至阅读电子书。可以选择使用 Plex,Emby, 或者Jellyfin。 Plex 是商业软件,付费版本的功能更强大,免费版本也能用。 Emby 的早先版本是免费版本,后来商业化之后开源版本不再有更新。 Jellyfin 是基于 Emby 的后续社区开源版本,有持续的更新,且支持硬件解码。 对于我来说, Jellyfin 更重要的功能是,除了电影和音乐的支持,还支持电子书。 支持 PDF,EPUB 格式的电子书。...........原创 2022-06-26 22:52:03 · 15272 阅读 · 0 评论 -
语音处理/语音识别基础(六)- 语音的端点检测(EPD/VAD)
「端点检测」(End-point Detection,简称 EPD)的目标是要找到音讯开始和结束的位置,所以又可以称为 Speech Detection 或是 VAD (Voice Activity Detection)。端点检测在音讯处理与识别中,扮演重要的角色,可以基于时域,或者基于频域来做 EPD。原创 2022-02-24 10:28:26 · 23000 阅读 · 7 评论 -
语音处理/语音识别基础(五)- 声音的音量,过零率,音高的计算
如前面第3篇讲到,声音的几个主要特征有音量 Volume, 音高 Pitch, 音色 Timbre。另外有一个重要的特征是过零率 zero crossing rate。当我们在分析声音时,通常以「短时距分析」(Short-term Analysis)为主,因为音讯在短时间内是相对稳定的。我们通常将声音先切成帧(Frame),每一帧长度大约在 20 ms 左右,再根据帧内的信号来进行分析。计算音量(Volume/Intensity/Energe)「音量」代表声音的强度,又称为「响度」、原创 2022-02-14 09:45:00 · 15890 阅读 · 3 评论 -
语音处理/语音识别基础(四)- 语音文件读取与播放
本文分享如何在 matlab 里面读取 wav 文件,播放 wav 文件,以及如何录制语音文件,保存语音文件。代码中演示了如何改变音频文件的采样率(影响到播放速度),音量(影响到听到的声音大小)。原创 2022-02-13 22:10:12 · 5566 阅读 · 1 评论 -
语音处理/语音识别基础(二)- 声音的存储
本文总结声音的存储,对如下问题做出回答。1.声音有哪些属性?2.声音转换成电脑文件(wav/mp3)的过程是怎么样的?3.PCM格式的音频文件和WAV格式文件的内容有什么差异?声音是物体振动产生的声波。声音通过介质(空气、固体、液体)传入到人耳中,带动听小骨振动,经过一系列的神经信号传递后,被人所感知。声音是一种波。物体振动时会使介质(如空气)产生疏密变化,从而形成疏密相间的纵波。频率(音调):声音1秒内周期性变化的次数人耳的听觉范围在20Hz-20kHz。 低频的声音沉原创 2021-12-26 18:00:15 · 6635 阅读 · 0 评论 -
语音处理/语音识别基础(一)- 声音到底为何可以存储和播放?
最近准备做几个语音的应用。 心中有很多的疑问, 翻阅了大量资料和图书,找到了这些问题的答案。 如果你也对这些问题好奇,这一系列的文章正是为你准备的。声音是如何产生的? 声音是如何转变成数字信号存储在电脑上的?麦克风是如何工作的? 最早的录音设备是谁发明的?是如何发现的? 机器上的音频文件比如 pcm, wav, mp3文件中到底存储了什么样的内容, 里面的数字表示的什么含义? pcm, wav 存储的内容有什么差异? mp3 文件跟 wav 文件的内容有什么差异? 声音文件(mp3/wav等.原创 2021-11-23 10:25:04 · 5014 阅读 · 0 评论 -
从视频分片转码的效率来看编码,解码效率
由于转码是非常耗时的操作。为了加快视频文件的转码,对视频文件进行切分,分成多片,在多台机器并行执行,最后做合并来提升性能。以下做一个实验,对分片前后的数据做一个对比, 验证分片转码的性能提升效果。1.原始 mov 转码为 mp4文件(不切片)输入:218s 的视频文件,文件大小:215.3M,由 iPhone 11 Pro 拍摄的视频。 原始文件格式:Duration: 00:03:38.22, start: 0.000000, bitrate: 7894 kb/sStream #0原创 2021-10-29 19:34:35 · 3410 阅读 · 1 评论 -
FFMPEG详解(完整版)
原文出自:http://3xin2yi.info/wwwroot/tech/doku.php/tech:multimedia:ffmpeg转自:FFMPEG详解 [C.L's Tech Notes]原文的出处已经访问不到,这里做一个完整版的备份,供参考。认识FFMPEGFFMPEG堪称自由软件中最完备的一套多媒体支持库,它几乎实现了所有当下常见的数据封装格式、多媒体传输协议以及音视频编解码器,堪称多媒体业界的瑞士军刀。因此,对于从事多媒体技术开发的工程师来说,深入研究FFMPEG成为一门必.转载 2021-09-30 11:04:46 · 102320 阅读 · 4 评论