shichaog-CSDN博客

原创语音合成之二十 VITS模型详解与MeloTTS实现

传统上，文本转语音（TTS）系统通常依赖于多阶段流水线，这通常涉及一个声学模型将文本转换为声学特征（例如，梅尔频谱），然后一个声码器将这些特征合成为波形。一个典型的级联模型是GPT-SoVITS，它首先训练一个自回归模型从文本生成音频语义标记，然后由SoVITS模型根据这些标记合成波形。尽管这些级联模型有效，但它们常面临阶段间错误传播的问题，并且联合优化过程可能十分复杂。

2025-06-11 19:30:00 849

原创语音合成之十九为什么对数行列式的值可以作为Flow-based模型loss？

角度解释数学意义表示变换引起的概率密度变化物理意义描述输入空间到潜变量空间的“缩放”程度训练意义控制模型学习如何更好地拟合数据分布数值表现一般为负值（因为大多数变换是压缩性的）loss 组成与 log_pz 一起构成最终 loss直观理解：logdet 如何影响 loss？场景logdet 影响变换压缩空间（如 log(x)）logdet 为负，loss 增大 → 鼓励模型少做压缩性变换变换扩展空间（如 exp(x)）

2025-06-06 19:00:00 979

原创语音合成之十八为什么在招的TTS算法岗比ASR多？

为什么TTS算法岗比ASR多？

2025-05-28 19:00:00 467

原创语音合成之十七语音合成（TTS）中文自然度：问题、成因、解决方案

中文语音合成（TTS）面临独特挑战，主要包括音色跳变、声调错误和漏读断句问题。音色跳变源于数据不足、特征耦合及方言不匹配，可通过说话人表征学习、编码器优化和解耦技术改善。声调错误由中文韵律复杂性引起，解决方案涵盖多音字消歧、声调解耦和韵律控制技术。漏读断句问题则需加强文本理解、优化韵律预测和注意力机制。这些技术演进从规则驱动发展到基于深度学习的数据驱动方法，显著提升了中文TTS的自然度和表现力。

2025-05-27 21:32:44 1184

原创语音合成之十六语音合成（TTS）跳跃与重复问题的解析：成因、机制及解决方案

文本转语音（Text-to-Speech, TTS）技术致力于将文本信息流畅、自然地转换为语音。然而，在实际应用中，合成语音常出现“跳跃”（漏词，Omission）或“重复”（重复，Repetition）等问题，严重影响了语音的清晰度和自然度。跳跃指的是合成语音遗漏了输入文本中本应存在的音素、词语甚至整个短语；重复则指音素、词语或短语在非预期的情况下被多次读出。这些问题，连同“含混不清”（muffling）和“提前中止”（early stop）等，常被归类为“严重错误”（gross errors），它们是

2025-05-24 23:25:39 894

原创语音合成之十五语音合成（TTS）分句生成拼接时的响度一致性问题：现状、成因与对策

摘要：TTS分句拼接中的响度一致性挑战与解决方案语音合成（TTS）系统在分句生成拼接时普遍存在响度不一致问题，表现为句子间音量跳变，影响听觉体验。该问题源于分段生成的固有特性，包括频谱失配、缺乏上下文感知、韵律预测差异等。现代端到端神经模型虽提升语音质量，却因独立生成片段而加剧了这一问题。解决方案主要包括：后处理技术（如LUFS感知响度归一化）和基于模型的韵律控制（显式能量预测、长时上下文建模）。尤其值得注意的是，情感TTS在追求表现力的同时更易产生响度波动，需在韵律控制与一致性间取得平衡。未来需进一步研

2025-05-23 23:12:42 1059

原创语音合成之十四文本转语音（TTS）开源数据集

近年来，深度学习推动了文本转语音（TTS）技术的显著进步，能够生成高度逼真且可控的语音。高质量、大规模且多样化的数据集是训练先进TTS模型的基础。TTS数据集需要包含音频-文本校对、时间对齐、元数据等，以捕捉语音的细微差别。数据集的构建涉及语言学、信号处理和数据科学，是TTS系统开发的核心环节。数据增强策略如噪声注入、音高变换等，可提高模型泛化能力。数据预处理中的采样率统一、文本规范化和声学特征提取是确保模型性能的关键步骤。文本规范化处理数字、缩写等非标准词，音素化策略则涉及字符、字位与音素的转换，对合成语

2025-05-14 20:49:58 912

原创语音合成之十三中文文本归一化在现代语音合成系统中的应用与实践

中文文本归一化在现代语音合成系统（TTS）中扮演着关键角色，旨在将书面文本转换为标准化的口语化形式，以确保合成语音的准确性和自然度。中文由于其复杂的语言特性，如多音字、数字、日期等非标准词（NSW）的多样性，对文本归一化提出了挑战。归一化过程包括预处理、非标准词识别与转换、后处理三个主要阶段，涉及字符宽度转换、Unicode标准化、繁简转换等步骤。主流TTS系统如SparkTTS和CosyVoice虽然依赖大型语言模型（LLM）处理文本，但仍需显式的文本归一化模块来确保复杂中文输入下的语音合成质量。

2025-05-11 21:17:04 767

原创语音合成之十二 TTS声学编解码器的演进

从HiFi-GAN在波形合成效率与保真度上取得的突破，到XCodec2.0和BiCodec在语义丰富性与可控性方面的探索，TTS声学编解码技术在过去数年中取得了令人瞩目的进展。GAN的基石地位: 生成对抗网络（GAN）仍然是训练高保真声码器和编解码器的核心技术之一，尽管通常会辅以感知损失和特征匹配损失来进一步提升效果。

2025-05-08 09:03:37 1034

原创语音合成之十一提升TTS语音合成效果：低质量数据清洗、增强与数据扩增

在开始收集和处理数据之前，详细的规划至关重要，它决定了项目的可行性和最终效果。发音人策略：首先要确定是构建单发音人还是多发音人数据集。对于初学者或特定应用（如语音克隆），单发音人数据集更简单，易于管理和训练。多发音人模型则需要更复杂的数据平衡策略和发音人身份（Speaker ID）管理技术。数据来源与授权：明确音频数据的来源，例如有声读物、播客、广播档案、专业录音或自行录制。至关重要的一点是，必须确保拥有使用这些数据进行模型训练的合法权利或许可。忽视版权问题可能导致严重的法律风险。

2025-05-05 22:00:00 1124

原创语音合成之十韵律之美：TTS如何模拟语音的节奏和语调

韵律，也称为超音段特征（Suprasegmentals），是指语音中超越单个音素（元音和辅音）层面，通常应用于音节、词语、短语乃至整个句子序列的语音特征。它是语音的“调”与“节奏”的研究，关注这些特征如何贡献于意义的表达。音高/语调 (Pitch / Intonation): 指声音感知的基频（Fundamental Frequency,F0F_0F0）高低变化。

2025-04-29 19:00:00 1159

原创语音合成之九注意力机制在TTS中的应用：让模型“听懂”文本

早期的TTS系统依赖于预先录制的语音片段或基于规则的参数模型，在自然度和灵活性方面存在诸多限制。深度学习的出现，特别是端到端神经TTS模型的兴起，极大地提升了语音合成的质量，使得合成的语音更加接近人类的自然发声。在基于神经网络的TTS发展过程中，注意力机制扮演了至关重要的角色。它有效地解决了传统序列到序列模型在处理长文本时遇到的瓶颈问题，并为模型提供了在生成语音的每个时刻关注输入文本相关部分的能力。

2025-04-28 19:00:00 755

原创语音合成之八-情感化语音合成的演进路线

人类的交流沟通本质上是充满情感的。无论是日常对话还是正式演讲，语音都不仅仅是信息的载体，更是情感、态度和意图的表达方式。情感化语音合成（Emotional Speech Synthesis, ESS）旨在弥合功能性文本到语音（Text-to-Speech, TTS）系统与真正类人交互之间的鸿沟。它赋予机器通过语音表达各种情感的能力，使得人机交互更加自然、生动和富有同理心。情感化语音合成技术对于提升用户体验至关重要，尤其是在虚拟助手、游戏、个性化服务等应用场景中，能够显著增强系统的亲和力和吸引力。早期

2025-04-27 19:00:00 1305

原创语音合成之七语音克隆技术突破：从VALL-E到SparkTTS，如何解决音色保真与清晰度的矛盾？

更强大的说话人编码器的开发对于实现更好的语音克隆至关重要。YourTTS 的设计理念在于利用多语言训练的优势，提升模型在零样本多说话人文本到语音合成和语音转换方面的性能，并降低对大量数据的依赖，尤其是在低资源语言的场景下。将 TTS 视为对离散音频标记的语言建模任务，代表了该领域的一种范式转变，借鉴了语言模型在 NLP 中的成功经验，并可能为跨不同模态的生成式 AI 提供更统一的方法。然而，长久以来，如何才能在精确复制说话者音色的同时，确保合成语音的清晰度和自然度，一直是该领域面临的核心挑战。

2025-04-26 10:29:35 1100

原创语音合成之六端到端TTS模型的演进

近年来，基于大型语言模型的TTS模型，如2025年提出的SparkTTS ，以及侧重于可扩展性和多语种能力的Cosyvoice（2024年），相继涌现。注意力机制是Tacotron模型的一项关键创新，它使得解码器在生成每个音频帧时，能够自动地聚焦于输入文本序列的相关部分，从而学习文本特征与相应音频帧之间的对齐关系。首先，训练一个教师模型，然后从教师模型的注意力对齐中提取音素的持续时间，并使用教师模型生成的梅尔频谱图作为目标来训练FastSpeech模型及其时长预测器。

2025-04-25 23:25:27 873

原创语音合成之五语音合成中的“一对多”问题主流模型解决方案分析

这些模型都利用深度学习架构，特别是Transformer或基于Transformer的模型，旨在生成自然且富有表现力的语音，并支持某种形式的说话人控制，包括语音克隆能力。FSQ优化了语音特征的提取，从而提升了合成语音的质量。SparkTTS的BiCodec架构通过将语义和说话人属性明确分离为不同的标记类型，为控制语音的不同方面提供了一种清晰的机制，从而直接解决了“一对多”问题。先进的TTS模型的目标不仅是生成可理解的语音，更重要的是能够捕捉和控制这些变化参数，从而产生更自然、更具表现力的音频。

2025-04-25 21:00:00 1262

原创语音合成之四大语言模型（LLM）与TTS的深度融合

基于LLM的方法摆脱了音素建模，采用了LLM+Decoder架构，在大大简化了TTS的复杂度的同时，提高了合成的可控性，LLM作为这些TTS系统的核心组件或基础架构被反复提及，标志着TTS领域从传统的声学建模方法向利用LLM的语义理解和生成能力的重大转变。这种范式转变直接促成了零样本语音克隆和多语种支持等功能的进步。基于 LLM 的 TTS 技术正在迅速发展，LlaSA、CosyVoice 和 SparkTTS 等模型代表了该领域的重大进步。

2025-04-23 19:00:00 904

原创语音合成之三MeloTTS模型

你是否曾为找不到一款既能流利说中文，又能自然地混合英文的语音合成工具而烦恼？或者，你是否希望在普通的电脑上也能实现快速、高质量的语音合成，而无需昂贵的专业硬件？如果你的答案是肯定的，那么MeloTTS绝对值得你关注。MeloTTS 是一款由 MyShell AI 开发的高质量、多语种文本转语音（TTS）库。它最引人注目的特点之一是其对多种语言的支持，包括英语、西班牙语、法语、中文、日语和韩语。对于中文用户来说，MeloTTS 尤其友好，因为它能够出色地处理中英文混合发音，这在许多实际应用场景中都非常实用。

2025-04-23 10:02:32 1091

原创语音合成之二TTS模型损失函数进化史

以掷骰子为例，一个六面体的骰子，从统计意义上来说，只要采样数量足够多，那么六个面的数字[1,2,3,4,5,6]应该是均匀分布的，如果采用L1或者L2的loss，让模型预测足够次数掷骰子的点数，那么为了是预测统计误差是最小，模型倾向于预测3或者4，可以看出来两端的极值被模型忽略了，模型输出对齐的是统计值偏好。但是这样训练的模型逼真度仍然较差，其主要的原因是引言里提到的“数值逼近”而非“听觉逼近”，而且L1/L2的“数值逼近”逼近的统计数值，而不是具有随机性的真实分布的数值。

2025-04-18 19:00:00 574

原创语音合成之一TTS技术发展史综述

文本转语音（Text-to-Speech，TTS）技术是一种将书面文本自动转换为人类语音的技术。它是一门交叉学科，融合了语言学、声学、计算机科学和电子工程等多个领域的知识。TTS技术通过计算机合成逼真的语音，使得用户能够通过听觉获取信息，极大地扩展了人机交互的方式。从早期的机械发声装置到如今高度智能化的语音合成系统，TTS技术已经渗透到我们日常生活的方方面面，例如智能语音助手（亚马逊Alexa、豆包、苹果Siri等）、屏幕阅读器（为视力障碍人士和阅读障碍者）、教育软件、媒体与娱乐（播客、有声读物、视频/游戏

2025-04-17 10:46:41 1102

原创腿足机器人之十四-强化学习SAC算法

在实际机器人训练中，PPO适合在仿真环境中大量的进行，这是因为仿真环境可以产生大量的数据，而这正好满足了On-Policy 所需的大量交互数据，但是SAC的Off-Policy 特性复用旧数据，这意味着在真实世界中收集的数据可以服用，这提高了学习复杂动态的能力（如适应不同地面摩擦力），二者的结合是常用的方法。熵的概念源于信息论，原本表示的是编码信息所需要的比特数，信息量越少（确定性高），需要的用来编码信息的比特数也越少，这里熵衡量的是策略的随机性，熵越大策略越随机，这样有助于探索。

2025-02-28 21:00:00 1275

原创腿足机器人之十三-强化学习PPO算法

PPO（Proximal Policy Optimization）算法稳定性强，适合大多数的仿真环境，如MuJoco/Isaac Gym，是初上手的首选，SAC（Soft Actor-Critic ）算法在需要高效探索或真实机器人部署（样本成本高）时更优，际工程中，PPO+SAC 组合（如 PPO 微调 + SAC 迁移）已成为提升鲁棒性的常见方案。的，OpenAI一直想做的是AGI，chatGPT是AGI决策中枢，而机器人是AGI在现实世界交互的核心，而机器人运动、姿态控制室交互中的核心。

2025-02-27 19:00:00 1505

原创腿足机器人之十二-VLA视觉语言动作模型

传统控制方法无法直接理解人类模糊或复杂的指令（如 “去二楼查看是否有异常”），需依赖固定脚本，有了VLA，就可以通过视觉感知环境语义（如识别 “楼梯” 或 “坑洞”），结合语言指令（如 “上楼” 或 “绕过障碍”），生成适应地形的步态和路径规划。多模态感知与对齐视觉编码器：使用 ViT 或 ResNet 提取环境特征（如地形高度图、障碍物位置）。示例：从 RGB-D 图像中分割出可通行区域与危险区域（如波士顿动力 Spot 的视觉导航模块）。

2025-02-23 20:15:13 1311

原创腿足机器人之十一- 深度强化学习

深度学习技术已经在语音、图像、视频、文本等领域应用广泛，其和强化学习的结合使得基于深度学习的大模型能力更是上升一个台阶。因而用在腿足机器人的运动中枢上也不足为奇，但是和电子化格式的语音、图像、文本而言，机器人的运动姿态涉及到真实的物理世界，要符合物理规律和宏观力学定律。

2025-02-22 10:10:11 1362

原创腿足机器人之十- SLAM地图如何用于运动控制

在有了地图之后，需要找到起点到目标点的最优路径（避开已知障碍物），首先进行全局路径规划（基于静态地图），常用的算法有A*、Dijkstra、RRT*等。然后再使用局部路径规划（避开动态障碍物，实时调整路径），常用的算法有动态窗口法（DWA）、人工势场法。和到底机器人相比，腿足机器人可以双脚离地（小跑、跳跃），SLAM地图需要包含高度信息，因此使用三维地图，这可以使用点云地图、高程地图以及体素地图。零力矩点（ZMP）稳定性判据。2.SLAM与运动控制流程。2.滚动优化：在时间窗口。条腿的地面反作用力，

2025-02-20 20:24:24 923 2

原创腿足机器人之九- SLAM基础

机器人运动控制的核心目标是让机器人在环境中安全、高效地移动，前面的博客中主要阐述的是腿足机器人高效的移动（关节结构、高层运动规划、中层运动、逆运动学以及底层的PD电机驱动控制），而SLAM（Simultaneous Localization and Mapping，即时定位与地图构建）是机器人实现自主导航的基石。因此，SLAM为运动控制提供了环境感知和定位信息，两者结合才能实现真正的自主导航。

2025-02-18 19:00:00 926

原创腿足机器人之八- 腿足机器人动力学

腿足机器人的运动学解决“如何到达目标位置”的问题，动力学解决“如何高效稳定地到达”的问题。两者结合，使机器人能够在复杂环境中实现类生物的灵活运动，是仿生机器人领域的核心技术。如波士顿动力Atlas通过逆运动学规划跳跃动作，结合动力学模型计算关节力矩以实现空翻， MIT Cheetah利用简化动力学模型（弹簧负载倒立摆）实现高速奔跑，同时优化能量效率。

2025-02-16 11:55:31 1637

原创腿足机器人之七- 逆运动学

偏航（Yaw）：绕Z轴旋转，角度记为ψ\psiψ俯仰（Pitch）：绕Y轴旋转，角度记为θ\thetaθ横滚（Roll）：绕X轴旋转，角度记为ϕ\phiϕ基座标系（O₀）设在髋关节中心，X轴向前，Y轴向左，Z轴向上。

2025-02-16 10:06:56 1622

原创腿足机器人之六- 前向运动学

基坐标系（base frame）：通常固定在机器人躯干或髋关节处(如上图中间的圆圈位置，在髋关节的旋转中心)，通常以髋关节的初始位置为原点，Z轴（Yaw）垂直于躯干平面（竖直方向，人体直立时从脚到头的连线），X轴（Roll）指向机器人前进方向，Y轴（Pitch，从左肩到右肩的连线）。关节坐标系：每个关节的局部坐标系，用于描述相邻连杆的相对运髋关节坐标系：与基坐标系重合（初始状态），当髋关节偏航（Yaw）时，绕基坐标系的Z轴旋转。膝关节坐标系：位于大腿末端，绕髋关节俯仰轴（Y轴）旋转。

2025-02-15 19:33:38 1483

原创腿足机器人之五- 粒子滤波

上面的离散的可能状态如何求得？分为静态和动态法，静态分解技术依赖于一个预先选定的固定分解方案，这种方案在分解过程开始前就已经确定，且不考虑被近似的后验概率分布的具体形状。这类技术能更有效地针对状态空间中后验概率较大的区域提供更高的分辨率，而在概率较低的区域采用更粗糙的分解，从而节省计算资源并提高效率。这些权重是根据每个粒子相对于观测数据的似然性来分配的，即反映了每个粒子如何适应观测数据的程度。通常粒子的状态总数M是一个很大的数，如M=1000，在一些实现中M也是时间或者和后验概率有联系的其他变量的函数。

2025-02-15 08:46:02 926

原创腿足机器人之四- 卡尔曼滤波

机器人的任务是根据传感器读取和之前的移动历史估计自己的当前位置。这里的关键是如何根据新的传感器数据更新机器人对当前位置的估计。

2025-02-14 08:59:08 1001

原创腿足机器人之三- 驱动器控制算法PID

腿足机器人的驱动器控制算法（如PID和PD）是实现其运动稳定性和动态响应的核心技术。

2025-02-14 08:57:26 1218

原创腿足机器人之二- 运动控制概览

腿足机器人的所有运动，最终都会反应在对关节的控制上，大体上关节的运动一般采用运动学和强化学习两类方法，如运动学逆解算法用于规划关节角度（如肘式/膝式腿的几何求解），强化学习（RL）优化步态生成，如NVIDIA Isaac Lab端侧部署方案。RL方法的一个挑战是获得训练数据，在机器人行走之前，采集数据的成本是高昂的，所以一般训练都是先基于仿真环境，在在仿真中定义奖励函数（如前进速度、能量效率、姿态稳定性），然后通过PPO或SAC算法优化策略模型预测结果，然后再迁移到实际的环境中。例如，给定足端目标位置。

2025-02-13 18:50:09 1448

原创腿足机器人之一- 机械与电子组件概览

腿足机器人主要结构是由刚体（links）和关节（joints）组成的，在这种设计结构中，每个刚体部件被称为“连杆”，它们是支撑结构，不仅仅承载着装置自身的重量，还可能面对工作时的各种负载。从腿足机器人的角度看，通常是将分解之后的运动姿态，比如某一个关节角度信息直接传给控制器，控制器内部将目标位置信息通过PID/PD算法转为电机（motor）控制信号，然后为电机提供合适的电流电压（控制器的正负3.3v带不动力矩较大的关节运动），然后通过将电能转成电机机械能，带动机器人的运动。齿轮是带齿的机械组件。

2025-02-13 18:49:46 1796 2

原创大模型之三十三- 开源Melo 语音合成

文本到语音（TTS）系统从基于基础音素的模型演变成复杂的端到端神经方法，这种方法可以直接将文本转换为语音。这一变革得益于深度学习的进步和计算能力的提升，已经在语音的自然度、韵律控制和跨语言能力方面取得了重大进展。现代TTS系统现在服务于多样化的应用领域，从智能助理到辅助工具和人机交互界面。

2025-01-19 12:45:04 476

原创第四章神经网络声码器

WaveNet 是DeepMind 提出的一种深度学习声码器，2016 年 9 月的一篇论文中进行了概述[1]，旨在能够直接从原始音频数据生成语音。WaveNet 最初是为了改进传统的文本到语音（TTS）系统的语音质量提出的，其采用卷积神经网络生成音频波形，实现了比传统方法更自然的声音。WaveNet 的主要挑战在于需求巨大的计算资源，这使得它在实际应用中受到了限制。

2025-01-12 23:04:26 1410 1

原创第三章 WORLD 声码器

WORLD Vocoder由日本学者开发，主要用于提高音频信号处理时音质的保真度，通过对传统的Vocoder方法进行改良，提供更加清晰的语音合成效果，常用于语音研究和音乐制作，其优点在于可以用在实时系统上，在算力和效果上做了很好的平衡。谱分析（Spectral Analysis），谱分析是用来从语音信号中提取声谱特征的技术。它涉及到将语音信号分解为一系列的频率组成部分，以便于更细致地理解和处理这些成分。

2025-01-12 15:08:51 1054

原创第二章线性预测编码（LPC）

这里主要是LPC声码器，这部分的内容绝大部分摘自我的专利《》，对内部细致的实现，以及LPC声码器在音频编解码上如何使用的，可以参看该专栏线性预测编码（LPC）是一种主要用于音频信号处理和语音处理的方法，用于使用线性预测模型的信息以压缩形式表示数字语音信号的频谱包络。LPC 通过估计共振峰、从语音信号中去除它们的影响以及估计剩余“噪声”的强度和频率来分析语音信号。去除共振峰的过程称为逆滤波，减去滤波后的建模信号后剩余的信号称为残差。LPC 是语音编码、语音合成以及歌声合成中使用最广泛的方法。

2025-01-11 20:22:19 1425

原创第一章相位编码器（Phase Vocoder）

开篇先留一个问题，现在TTS大模型、音乐生成大模型的“电音”/“机器音”/“合成音”、“金属感”、以及清晰度低在信号层面该如何解释？

2025-01-11 17:50:49 1486

原创大模型之三十二-语音合成TTS(coqui) 之二 fine-tune

在[shichaog @CSDN]中提到了xttsv2的fine-tune。这里公布一下结果。

2024-10-15 21:02:24 872 1

大模型之三十二-语音合成TTS(coqui)

2024-10-15

Linux310启动

Linux是如何启动的？一些基础的服务是怎样建立又是何时准备好的？本文旨在揭秘操作系统是启动过程的，启动时又做了些什么。这点类似BSP了，但是缺了应用。这篇文章讲到grub、uboot、initramfs、根文件系统、设备树、以及Linux内核编译等内容。本文那些对系统启动这一过程好奇的人在合适不过了。这里讨论两种平台下的启动方式，因为它们都可以都可以作为一种应用下的典型来说明问题。这篇文档为我个人所写，希望对各位能有作用，呵呵~！

2014-10-18

命名空间 Linux

目前Linux实现了六种类型的namespace 每一个namespace是包装了一些全局系统资源的抽象集合这一抽象集合使得在进程的命名空间中可以看到全局系统资源命名空间的一个总体目标是支持轻量级虚拟化工具container的实现 container机制本身对外提供一组进程这组进程自己会认为它们就是系统唯一存在的进程在下面的讨论中按命名空间实现的版本先后依次对其介绍当提到命名空间的API clone ushare setns 时括号内的CLONE NEW 用于标识命名空间的类型 ">目前Linux实现了六种类型的namespace 每一个namespace是包装了一些全局系统资源的抽象集合这一抽象集合使得在进程的命名空间中可以看到全局系统资源命名空间的一个总体目标是支持轻量级虚拟化工具container的实现 container [更多]

2014-11-21

linux内存管理

原创，共五章，基于工作中使用的3.10版本内核，包括内存启动初始化过程，linux内核内存管理，进程虚拟地址管理

2015-05-05

麦克风阵列前端语音信号处理

个人学习笔记，稍稍整理下

2016-10-12

深度学习之自然语言处理BERT 博客源码

深度学习之自然语言处理BERT 博文源码

2022-06-11

深度学习模型调优 keras mnist

越来越多的人工智能解决方案将深度学习作为其基本技术，然而构建深度学习模型并不是一件容易的事，为了获得满意的准确性和效率，通常需要数周的时间优化模型。本下载源码为博客文章 https://blog.csdn.net/shichaog/article/details/125128321 配套资源，从网络结构本身和训练参数两个层级两个方面实例分析优化的过程和手段

2022-06-06

语音回声消除使用到的算法

语音回声消除算法中使用到的NLMS算法

2017-05-03

bluetooth BLE client

Gatt为ble client端程序，用于brocast自己并发送一些信息.Server为接收信息程序

2016-12-10

bluetooth BLE server

bluedroid bluetooth low energy，server端示例代码，client 端下载地址见： http://blog.csdn.net/shichaog/article/details/53557274

2016-12-12

zynq dma linux 配置

该资源是博客中附带的资源下载链接

2017-04-02

Linux系统启动那些事—基于Linux 3.10内核

注：Linux310启动，为旧版本，请下载这版也许你会好奇Linux是如何启动的？一些基础的服务又是何时准备好的？本文旨在揭秘操作系统是启动过程的,主要是内核态下发生的一些事。本文涉及grub、uboot、initrd、根文件系统、设备树、以及Linux内核编译等内容。对那些好奇系统是如何启动的人本文非常适合，当然对于由于涉及操作系统的方方面面，bsp的开发人员也有点价值，但是这里没有对应用做介绍；本文讨论两种平台下的启动方式，因为它们均是对应体系架构下的典型。

2014-10-25

fft 快速傅里叶变换430

快速傅里叶变换 c语言编写的，fft 快速傅里叶变换C8051FXXX 程序,其中包含8位和16位的快速傅利叶变换

2011-04-27

linux tcp/ip协议栈

分为上篇和下篇，上下篇共十八章，上篇九章部侧重于TCP/IP数据收发流程，即OSI模型的IP和TCP层，下篇也是九章，并不属于TCP/IP本身，但是多少和网络有关且常用到，比如LC-trie路由、netfilter包过滤防火、还有一些网络相关的命令行工具等，文末给出IPV6的协议栈模型图，此外还给出了测试源码。

2015-04-22

keepalive应用脚本

包括主、从MySQL库，监视、主从切换shell脚本

2014-05-05

vim 技巧和插件

共六个部分。第一个部分是vim常用命令快捷方式第二个是Tlist插件的安装和使用实例。第三个是ctags的安装和使用实例第四个是自动补齐功能的实例第五个是winmanager的安装和使用实例第六个是cscope安装和使用实例每个录制文件包含了time_*和vim_*两个文件，其中time文件记录时间，vim命令记录的是命令，它们内容是script工具生成的。查看演示方法，如查看第二个（time和vim两个文件中去有2的文件）： scriptreplay time_hacking2_tlist.log vim_hacking2_tlist.txt 其中在~/.vimrc的文件在vimrc文件里，如果只使用scriptreplay回放，则不需要替换~/.vimrc；如果替换，则先备份原文件，以免习惯不同导致不适应。

2015-05-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人