Mark White-CSDN博客

原创 Matplotlib 库来可视化频谱泄漏和加窗的效果

很多朋友学习音频技术的时候，不理解这个频谱泄漏是什么，我们这次写个小代码直观地感受一下。

2025-06-05 19:06:26 333

原创欧拉公式简明推导

欧拉公式ejθcosθjsinθ被誉为“数学中最美丽的公式”之一，我们利用入门的高数知识来简单证明它

2025-06-05 17:30:27 767

音频信号的正负值记录了声波的振动方向，其幅度则反映了强度。由于数字系统存在最大可表示的“天花板”（Full Scale），以及不同音频设备所能表现的绝对音量差异，所以音频文件使用 dBFS作为音量的指标。核心要点：记录声波的瞬时方向（密部或疏部）与强度。数字音频系统的绝对上限，任何超过 0 dBFS 的信号都会导致削波失真。表示信号电平低于系统最大容量，负数值越大（如 -20 dBFS 比 -6 dBFS 更大），表示信号越弱。dBFS 是数字音频的“罗盘”，用于防止削波、标准化电平、优化信噪比。

2025-06-05 10:07:39 1026

原创奈氏准则/奈奎斯特定理如何直观理解2W这个超参数，为什么偏偏就是2呢？

核心原因就在于信号的周期性变化。一个频率为。

2025-06-04 18:54:04 649

原创极客时间-《搞定音频技术》-学习笔记

声音的三要素是指响度、音调和音色，它们都是声音的主观属性，用来描述声音的特征。响度指声音的强弱，音调指声音的高低，音色指声音的质量或特征。响度（Loudness）：指声音的强弱，由振幅决定。振幅越大，响度越大；振幅越小，响度越小。响度还跟距离发声体远近有关。单位是分贝(dB)。音调（Pitch）：指声音的高低，由频率决定。频率越高，音调越高；频率越低，音调越低。单位是赫兹(Hz)。人耳能听到的频率范围大约是20Hz 到20000Hz。

2025-06-04 16:58:57 906

原创 Pydub 库初探：轻松玩转 Python 音频处理，告别“望声生畏”

Pydub 是一个强大且易用的 Python 音频处理库，它通过简洁的 API 封装了复杂的底层操作。是核心：所有操作围绕这个不可变对象进行。FFmpeg/Libav 是强大后盾：处理 WAV/RAW 以外的大多数格式依赖它们。务必正确安装。易用性优先：Pythonic 的接口，链式操作，参数自动匹配。常用操作覆盖全面：加载、导出、剪辑、拼接、音量调整、淡入淡出、叠加、格式转换等一应俱全。适用于快速开发和常见任务：是音频处理入门和完成日常任务的绝佳选择。

2025-06-03 16:07:33 770

原创【西方哲学-0】西哲思维导图mermaid格式

以下是个人学习西哲的一个简易思维导图。

2025-05-28 18:01:31 139

原创为什么dockerfile中你不应该写entrypoint

ENTRYPOINTCMD优先：大多数应用，将启动逻辑放CMD。ENTRYPOINT用于固定逻辑：需要不变的初始化或包装脚本时使用。ENTRYPOINT脚本使用exec "$@"：确保信号传递和CMD参数正确执行。JSON格式ENTRYPOINT和CMD优先用JSON数组格式。尊重基础镜像ENTRYPOINT：尤其对NVIDIA等专用镜像，不要轻易覆盖。深刻理解ENTRYPOINT和CMD。

2025-05-27 17:29:51 671

原创每天一条小指令：什么是chmod 1777

chmod 1777命令不仅仅是将目录权限设置为“人人可读写执行”，更重要的是通过首位的1启用了粘滞位。这个小小的t标记，在多用户共享的目录（如/tmp）中扮演着至关重要的角色，它确保了用户文件的安全，防止被其他普通用户删除或篡改，从而维护了系统的稳定性和安全性。理解并正确使用这一权限设置，是 Linux 系统管理中的一个重要知识点。

2025-05-27 10:39:42 597

原创【文章速读】Tim Ferriss《每周工作4小时》

章节标题与迷思破解很多人看到"新贵"（New Rich）这个词，会误以为这是另一本教你如何暴富的书。实际上，费里斯定义的"新贵"不是指拥有巨额财富的人，而是指那些掌控时间和移动性的人。核心概念详解新贵（NR）vs 传统富人：传统富人追求积累财富，推迟享受；新贵追求现金流和时间自由，活在当下相对收入：年收入10万美元工作50周 vs 年收入5万美元工作10周，后者的相对收入更高迷你退休：不是等到65岁才退休，而是将退休分散到整个人生中具体案例剖析。

2025-05-26 14:30:20 566

原创如何不规范的设置密码

当我们使用服务器的时候，有时候需要一些非常简单的密码，来方便使用，但是自己完全可控的环境下，我们希望我们的密码足够的简单，比如，可能它的密码就是123，或者是1？但是当你直接使用passwd的时候，会受到PAM配置的限制，所以我们用点奇淫技巧，比如我们把mark的密码设置为1这样就可以了，将上面替换mark和1为你的username和密码即可echo。

2025-05-26 09:20:53 687

原创一个指令查询你服务器所在的公网IP

如果你还有更简单的指令，请教会我！！！对于日常网络管理、服务器运维和网络故障排查，这种方法无疑是传统网站查询的最佳替代方案。

2025-05-15 11:39:47 375

原创 Linux服务器硬盘挂载小记录

单位给给了台老设备用，存储非常有限，精叫唤后领导加了个硬盘。本文将分享一个实际案例，详细介绍如何在Linux服务器上识别、格式化并挂载硬盘，特别是如何从Windows兼容的NTFS格式转换为Linux原生的ext4文件系统，以获得更好的性能和管理体验。

2025-05-14 15:56:25 811

原创【效率提升】Vibe Coding时代如何正确使用输入法：自定义短语实现Prompt快捷输入

搜狗拼音输入法的自定义短语功能可能是许多人早已忽略的强大工具。它不仅可以用来输入常用语，更可以成为管理和快速调用AI prompt的绝佳解决方案。在AI工具日益普及的今天，高效的prompt管理和输入方式已成为提升工作效率的关键因素。搜狗拼音输入法的自定义短语功能为我们提供了一种优雅、高效的解决方案，让我们能够专注于与AI的交互本身，而不是在复制粘贴的琐事上浪费时间。无论你是AI写作爱好者、程序员还是数据分析师，这个简单的工具技巧都能为你节省大量时间，提升工作体验。

2025-04-30 14:28:49 1071

原创 Docker 基础镜像的“最佳”空闲指令：为什么推荐 `CMD [“sleep“, “infinity“]`？

最近笔者在做ocr的相关工作，在这个地址看到一个dockerfile的构建指令这个dockerfile最后写了这么一行指令，想到很多同学可能对保活指令还不够熟悉，由此和大家分享一下。done;"]在使用 Docker 时，我们经常会构建自己的镜像，或者基于现有的镜像进行扩展。一个常见的场景是创建一个“基础”镜像，这个镜像可能包含了我们需要的操作系统环境、依赖库、配置文件等，但它本身并不运行一个特定的应用程序。它更像是一个模板，后续的应用镜像会基于它来构建。

2025-04-29 17:31:13 584

原创告别配置之痛——为什么 TOML 是更现代的选择？

TOML 并非旨在取代 JSON 或 YAML，而是为特定的痛点——创建易于人类理解和维护的配置文件——提供了优雅的解决方案。它在 INI 的简洁性、JSON 的结构化和 YAML 的部分人类友好性之间取得了良好的平衡，同时避免了后两者的主要缺点。是一个有争议的设计决策（有人认为“键不存在”即是 null，有人则需要显式 null），其嵌套表示方式也有不同的看法。这是 TOML 最受推崇的优点。对比 JSON，TOML 省略了大量的引号和结尾逗号，顶层结构也无需花括号包裹，使得手动编辑更加流畅，错误更少。

2025-04-23 14:47:21 998

原创 yaml里的挪威问题是啥

这个问题得名于挪威地名中经常包含冒号的特点，例如当你想在YAML中表示"Oslo: Norway"（奥斯陆：挪威）这样的键值对时，由于冒号在YAML中是键值分隔符，如果不正确处理，解析器会错误地将冒号后的内容解释为新的值，而不是字符串的一部分。在YAML中的"挪威问题"通常指的是YAML解析器对于特殊字符（尤其是冒号）的处理问题，特别是在解析包含冒号的字符串时可能出现的歧义。这个问题是YAML语法中的一个著名陷阱，经常出现在配置文件中，尤其是当配置值包含URL、时间戳或其他自然包含冒号的字符串时。

2025-04-22 19:27:18 174

原创火山引擎实时语音合成WebSocket V3协议Python实现demo

火山引擎(字节跳动旗下)的语音合成产品确实非常面向多媒体内容创作，特别是短视频、有声书和多人场景。火山引擎提供了极其丰富的音色选择(100+音色)，并按以下场景精细分类：多情感音色：支持情感变化，适合短视频叙事通用场景：基础音色趣味口音：各地方言口音，非常适合短视频创意内容角色扮演：大量角色化音色(40+种)，明显针对剧情类短视频、对白场景视频配音：专为视频内容优化的音色有声阅读：针对长文本朗读的优化音色丰富的角色音色：如"奶气萌娃"、“病弱少女”、"傲娇霸总"等，这些音色非常适合抖音等平台上的角

2025-04-22 16:44:09 1400

原创在循环中修改列表的危险：深入解析

为什么下面的代码正确输出了结果，但是实际上这样的代码是有瑕疵的？这个问题涉及到Python中一个常见的陷阱：在迭代时修改被迭代的集合。让我详细解释为什么这会导致不可控的结果。

2025-04-17 16:49:05 956

原创何时选择for，何时使用while？

循环是编程中的基础构件，但即使是有经验的开发者也常常在选择循环类型时犹豫不决。本文将深入探讨Python中的for循环和while循环，通过实际案例帮助你做出明智的选择，让代码更加清晰、高效。

2025-04-17 15:59:31 703

原创告别 ifconfig：为什么现代 Linux 系统推荐使用 ip 命令

ifconfig属于net-tools包，这个包在许多现代 Linux 发行版中被标记为废弃。官方推荐的替代命令是ip，它来自iproute2包。# 没有这个指令的话需要安装一下。

2025-04-10 17:31:38 2512 3

原创 ubunut 20.04 Docker安装简易教学

建议安装docker

2025-04-10 11:24:01 1346

原创 # 使用自定义Shell脚本hello快速配置Linux用户账户

hello创建新用户并设置密码配置sudo权限（无需密码）自动添加用户到Docker组（如果存在）创建友好的.bashrc配置和系统信息显示生成包含账户信息的README文件检测Docker服务状态并提供相关提示实用的别名（llla.., 等）登录时显示系统状态信息定制的.bashrc配置欢迎, username@hostname系统负载: 0.15 0.05 0.01 1/292 3021内存使用: 1.2G / 8.0G磁盘使用: 12G / 50G (25%)

2025-03-26 11:58:00 761

原创 # Ubuntu 软件包管理：apt、snap 和 Flatpak 如何选择

成熟稳定，速度快，资源占用少，适合服务器环境和对性能要求较高的场景。但安全性相对较低，小可能存在版本冲突问题。安全性高，依赖隔离，自动更新，适合需要高安全性和最新软件的场景。但闭源、性能、体积和中心化是其主要问题。开源、去中心化、安全性高，适合桌面用户和注重开源精神的场景。但成熟度和依赖管理仍有提升空间。针对不同用户场景的建议：推荐使用Flatpak。Flathub 提供了友好的图形界面商店，方便浏览和安装软件。Flatpak 的开源、去中心化特性也更符合 Linux 社区的精神。仍然推荐使用。

2025-03-24 17:33:52 1382

原创 Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术

在深度学习的精密机械中，有些细微的调整机制往往被视为理所当然，却实际上蕴含着深刻的数学洞察和巧妙的工程智慧。今天，我们将探讨两个看似独立却本质相通的机制：生成模型中的温度参数与Transformer注意力机制中的缩放因子。这两个设计都围绕着同一个核心概念——softmax分布的平滑控制。

2025-03-20 20:01:18 1180

原创开箱即用的whisper-service服务

映射宿主机9001端口到容器内部9000端口，使用相同的数据卷映射，模型使用turbo，容器名为whisper_turbo。映射宿主机8998端口到容器内部9000端口，使用相同的数据卷映射，模型使用base，容器名为whisper_base。映射宿主机8997端口到容器内部9000端口，使用相同的数据卷映射，模型使用tiny，容器名为whisper_tiny。映射宿主机9000端口到容器内部9000端口，使用相同的数据卷映射，模型使用medium，容器名为whisper_m。: 指定转录结果的输出格式。

2025-03-14 11:25:55 1510

原创 AI智能体系列文章：一、导论【Medium文章转载】

探索 AI Agents，它们的设计以及实际应用。本系列文章目录从 LLMs 到 AI Agents1.1 传统聊天机器人到 LLM 驱动的聊天机器人1.2 LLM 驱动的聊天机器人简介1.3 从 LLM 驱动的聊天机器人到 RAG 聊天机器人和 AI Agents什么是 AI Agents？2.1 AI Agents 的特性AI Agents 的核心组件3.1 感知（传感器）3.2 推理（处理器）3.3 行动（执行器）3.4 知识库3.5 学习。

2025-03-14 00:03:33 1125

原创【Medium频道搬运】引入 Gemini 2.0 Flash（检索增强生成（RAG）的终结者？）

原文链接:好吧！！谷歌刚刚发布了 Gemini 2.0 Flash，老实说？这可能是目前性价比最高的 AI 模型。我写了很多关于 RAG 的文章，认为它可能不再需要，也看到人们在讨论。有些人理解了，有些人没理解，还有些人真的很担心。所以让我们澄清一下。

2025-03-12 13:59:21 780

原创 # 深入理解RNN（一）：循环神经网络的核心计算机制

RNN的本质是一种带有循环连接的神经网络，使其能够处理序列数据核心计算公式体现了RNN如何结合历史信息和当前输入隐藏状态是RNN的"记忆"，它随着序列处理不断更新权重共享是RNN的关键特性，使其能够处理任意长度的序列梯度问题是基本RNN的主要缺陷，导致了LSTM等改进版本的出现尽管Transformer等新型架构在许多任务上已经超越了RNN，理解RNN的核心计算机制仍然是掌握序列模型的重要基础。RNN简洁的设计和直观的计算过程，体现了序列学习的基本原理，这些原理在更复杂的模型中依然适用。

2025-03-08 00:07:39 1103

原创 Shell 编程中 `$?` 的陷阱：基于一个性别判断的例子

`$?`是 Shell 编程中一个非常有用但容易被误用的特殊变量。正确理解它的工作原理，可以避免许多难以排查的逻辑错误。本文通过性别判断的例子，展示了的陷阱以及正确的使用方法。总是反映最近执行的命令的退出状态，如果你需要保留某个命令的退出状态，应当立即将其保存到一个变量中。正确的使用模式和良好的变量命名习惯，能够帮助我们编写出更加可靠和易于维护的 Shell 脚本。

2025-03-06 22:45:31 1036

原创 # Word2Vec与多义词表示：静态嵌入的优势与局限

在自然语言处理领域，词嵌入技术是将文本转化为机器可理解的数值向量的基础方法。Word2Vec作为经典的词嵌入模型，还是值得我们学习其中思想的。然而，它处理多义词的方式一直是讨论的焦点。本文将深入探讨Word2Vec如何表示"bank"这类多义词，并通过代码实例展示其优势与局限。Word2Vec为每个词创建单一的静态向量表示。这引发了一个常见批评：它无法区分多义词在不同上下文中的不同含义。例如，"bank"既可以指金融机构，也可以是河岸。传统观点认为，Word2Vec对这两种含义的表示会被"折叠"到同一个向量

2025-03-05 21:52:07 1047

空空如也

空空如也