迪三-CSDN博客

原创 NLTK库: 数据集3-分类与标注语料（Categorized and Tagged Corpora）

用于主观性分析的数据集，这个语料库由 5000 条主观句子（subjective）和 5000 条客观句子（objective）组成，专门用于情感分析和主观性分类任务。来源于 Bo Pang 和 Lillian Lee 的研论文《A Sentimental Education: Sentiment Analysis Using Subjectivity Summarization Based on Minimum Cuts》（ACL 2004）。

2025-05-13 21:37:07 1196

原创 NV-Link 测试（可用性与速率，PCIE+SXM）

多种方法测试nvlink状态与速率，确保nvlink正常工作

2025-05-09 11:44:12 773

原创 NLTK库: 数据集2-词汇资源（Lexical Resources）

类方法definition()获取一个包含20万多个标准英文单词的列表，用于英文处理、拼写检查、自然语言理解等任务（236736个词）。

2025-05-09 01:13:42 815

原创 NLTK库（1）: 数据集-语料库(Corpus)

NLTK （Natural Language Toolkit）是自然语言处理（NLP）任务的 Python 库，内置大量NLP数据集与计算包。NLP数据集也叫语料库 (Corpus), 若无特殊格式或标记，数据集通常来自txt等文本文件。本教程内容适用版本：涵盖NLP基本操作和大量语料(英文为主)：这里以小说nltk.corpus.gutenberg的圣经(‘bible-kjv.txt’)为例：nltk.corpus 模块中包含了多种类型的语料库，可大致分为以下几类：用于自然语言处理中的分词、句法、语义、

2025-05-06 17:57:19 982

原创论文研读: LLaVA-Med, 用一天时间微调7B大模型，输出医学影像诊断

通用领域的大规模视觉-语言模型（VLM）虽能处理日常图文，但在医学影像场景下往往缺乏专业性。现有医学视觉问答（VQA）大多将问题视为分类任务，无法满足“开放式”对话需求。因此，通过LLM微调的生物医学聊天机器人(Biomedical Chatbots)具备研究价值。LLaVA‑Med 的创新不在于改造模型，而是通过设计微调数据集，让7B的LLM具备医学问答与对话水平。利用低剂量 X 光透过人体，依组织密度在底片上形成衬度差异。骨骼高度吸收显白，肺野低密度显暗。

2025-04-21 17:23:22 964

原创论文研读: LLaVA, 微调大模型以理解图像内容

LLaVA是视觉大模型，涉及主流大模型微调方法，包括：通过超大参数模型（GPT-4）生成<微调数据>（这里是图文跨模态数据）两阶段微调大模型(原文为Vicuna-7B，即llama2，相比GPT-4约小10倍)第一阶段实现<视觉-语言特征对齐>第二阶段将<图像融合进上下文>两阶段微调对应不同的 <数据集> 及 <微调数据结构>微调《数据集》来自通用大模型 (比如ChatGPT的格式化输出)。微调《中小规模的参数模型》 3B / 7B / 35B 以适配下游任务。

2025-04-17 15:23:55 827

原创生成模型：流模型-Normalizing Flows

本文主要介绍主流的3类流模型它们基本思路是一致的，仅随发表时间有所改进。本例以学习的思路讲述流模型生成图像(MNIST)。流模型经典的应用是音频合成模型VITS其实现了《文本转语音/声音克隆》, 感兴趣的可以参看：以图像生成为例，其像素(pixels)是一种复杂的多维变量分布，其概率密度难以求解。生成模型的核心思想是：通过神经网络，将图像数据的分布与多维标准正态分布建立映射.实现通过标准正态采样，生成所映射的图像数据。概率密度 p(x) 表示在 x 附近每单位“测度”（比如单位长度、单位面积等）内的概率“浓

2025-02-20 11:09:18 1554

原创生成模型：扩散模型（DDPM, DDIM, 条件生成）

扩散模型的理论较为复杂，论文公式与开源代码都难以理解。现有的教程大多侧重推导公式。为此，本文通过精简代码（约300行），从代码运行角度讲解扩散模型。

2025-01-30 00:02:05 3615

原创生成模型：生成对抗网络-GAN

GAN的生成原理依赖于生成器和判别器的博弈这种独特的机制使GAN在图像生成、文本生成等领域表现出色。具有表现为:生成器 (Generator, G)生成器的目标是从一个随机噪声（通常是服从某种分布的向量，例如高斯分布或均匀分布）中生成与真实数据分布尽可能相似的样本。判别器 (Discriminator, D)判别器的目标是区分真实数据（来自真实数据分布）和生成器生成的数据，以分类器的形式输出一个概率值。

2025-01-17 16:17:30 1558

原创生成模型：变分自编码器-VAE

导入必要的库编码器：将输入数据映射为潜在变量 z 的均值μ\muμ和方差σ2\sigma^2σ2解码器：从潜在变量 z 重构原始数据# 编码器nn.ReLU(),nn.ReLU()self.fc_mu = nn.Linear(256, latent_dim) # 均值self.fc_logvar = nn.Linear(256, latent_dim) # 对数方差# 解码器nn.ReLU(),nn.ReLU(),

2025-01-08 23:40:06 1081

原创论文研读：Text2Video-Zero 无需微调，仅改动＜文生图模型＞推理函数实现文生视频(Arxiv 2023-03-23)

通过潜空间插值, 实现动作连续帧。以第一帧为锚定，替换原模型的self-attention，改为cross-attention实现保证图片整体场景不变的同时，生成具备运动信息的连续帧。

2024-12-31 17:17:22 1746

原创论文研读：Tune-a-video — 微调学习单个视频内的物体动作(Arxiv: 2023-03-17)

这里主要分析了文生图模型, 即text-to-image model, T2I model可根据文本<名词>和<动词>生成语义<图像>的能力能聚焦同一目标, 但无时间连续性T2V model图像仅具有空间特征(spatial features)，因此：只有spatio-temporal是不够的，时间的先后顺序，即连续性存在问题，为了改进这个问题:将时序特征通过DDIM加噪(inversion)的方式，嵌入latent 特征，以保证特征去噪后具有更好的时间连续性。

2024-12-31 15:07:05 1138

原创论文研读：AnimateDiff—通过微调SD，用图片生成动画(Arxiv:2024-02-08)

AnimateDiff 设计了3个模块来微调通用的文生图Stable Diffusion预训练模型, 以较低的消耗实现图片到动画生成。论文名：AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning三大模块：视频域适应模块(Domain-Adapter)：即让SD时应生成视频相关的内容动作学习模块(Motion-Module): 让SD从文生图的特征中，再学习序列特征。

2024-12-26 23:58:34 798

原创 AIGC研究回顾3—CV类微调方法—Textual Inversion（TI）

a. GAN Inversion直接通过真实图像优化潜向量V，让V重构真实图像。b. 与GAN不同，sd模型基于文生图，因此inversion处理在<文本映射>这一步：- 先由tokenizer将text映射为tokens(类似查字典的<字符>转<离散型向量>过程)，- 之后再通过embedding layer将tokes映射为表征向量V(<离散型向量>映射为<连续型向量>)。

2024-12-19 18:23:56 487

原创 AIGC研究回顾2—CV类微调方法—DreamBooth

全参微调sd模型（用文生图方式），文中对目标(Object)用特殊的标记(Rare-token Identifiers)限定，让微调后的模型能识别这个标记以生成对应的目标。图中黄色部分的模型即需要微调的模型，精简理解如下：微调前可以把右侧下方的看成预训练的sd(微调前)，这时，’A dog’生成各类狗。微调过程。

2024-12-19 17:43:11 548

原创 AIGC研究回顾1—CV类(FreeU + ControlNet)

AI技术核心是数据驱动(Data-Driven)，可分为两条主线：数据模型AIGC模型即生成模型，基本是自编码器的结构，即模型包含两个部分，编码器和解码器可以概述为5类。

2024-12-18 00:19:19 584

原创 ubuntu服务器木马类挖矿程序排查、及安全管理总结

如果只是简单的病毒，删除PID运行的文件即可进一步的就是定时启动程序，及开机启动程序（守护进程-daemon, 也叫系统服务，是指在后台运行且不直接与用户交互的进程）最后就是排查日志，另外做好权限管理，账户的密码尽量复杂一些，跑程序的普通用户不需要给。

2024-12-13 01:43:32 1551

原创 ubuntu24.04—nvlink未激活: 报错排查与解决

由于ubuntu24.04与windows驱动不同，未集成nvlink驱动，且nvlink的驱动fabricmanager版本可能和显卡驱动本身不同，就无法激活nvlink：用 nvidia-smi nvlink -s会发现未激活。

2024-12-13 00:41:08 1868

原创 GPT-Sovits-2-微调模型

上一步整理完数据集后，此步输入数据, 微调2个模型VITS和GPT，位置在下的这一步微调VITS的预训练模型，即微调SynthesizerTrn模型这一步微调GPT的预训练模型，这里采用的是google的soundstorm复现模型结构文件在：’ ./GPT_SoVITS/AR/models/t2s_model.py’注意，两个模型微调是独立的, 可分别完成。

2024-10-29 17:53:54 1761

原创 GPT-Sovits-1-数据处理

将音频切割为多个10s内的片段。

2024-10-29 17:51:34 765

原创显卡 3090 vs v100

【代码】显卡 3090 vs v100。

2024-10-09 23:35:57 5246

原创 VITS源码解读6-训练&推理

VITS到这里就告于段落了，后面的VITS2改进了VITS的dp模型（flow变gan），在cosvoice等模型里面也能见到VITS的主干网络。因此， VITS是音频tts和vc、sc的核心技术。

2024-09-28 11:47:41 658 2

原创 VITS源码解读5-commons.py

该文件包含多种通用向量运算函数，部分比较抽象, 共18个函数。

2024-09-27 00:31:54 1088

原创 VITS源码解读4-辅助文件

本节介绍多个文件：频谱 spectrogram 转换为 mel_spectrogram 的操作函数losses.py训练模型用到的损失函数utils.py一个工具包，包含项目运行所需的辅助类或函数commons.py包含训练网络时对数据处理函数(暂略)

2024-09-27 00:30:29 891

原创 VITS源码解析3-SynthesizerTrn

neg_cent2, neg_cent3, neg_cent4: 这些项结合了模型生成的潜在变量 z_p 和高斯分布的均值 m_p，并通过加权求和的方式编码了目标序列与源序列的匹配程度。仅用于训练，将x_mask和y_mask计算得到attn_mask，将logs_p和m_p (来自 enc_p) 与z_flow (enc_q)计算得到的neg_cent。neg_cent 是一个成本矩阵，它的每一行代表目标序列中的位置（音频），每一列代表源序列中的位置（文本），动态规划帮助我们找到最优的映射。

2024-09-18 16:36:46 1213

原创音频评价指标

第一个是主观评价指标，后面几个是客观评价指标。

2024-09-14 17:14:21 2862

原创 VITS源码解析2-模型概述

模型部分包含三个文件注意机制就是transformer，在文本编码器中用到了，transformer的encoder。modules.py这个包含模型的一些基础结构(blocks), 比如Norm, Conv, Resblock等models.py这个是VITS核心的模型结构，前两个文件只是其基础。

2024-09-14 15:49:27 1264 2

原创 Pyorch中 nn.Conv1d 与 nn.Linear 的区别

1D卷积的用途

2024-09-13 10:54:07 1181

原创 VITS源码解析1- 简介&数据预处理

VITS项目源代码解读

2024-09-12 21:46:15 1407

原创李沐--创业一年，人间三年 (附读后感)

本文是李沐老师的知乎博文分享，在原文内容的基础上，增加少许自己的读后感

2024-08-16 14:11:54 1789 1

原创音频处理8_短时傅里叶变换

频谱特性：汉宁窗口的频谱具有较低的旁瓣（sidelobe），这意味着它能够有效地抑制频谱泄漏，主瓣（mainlobe）较宽，这会降低频率分辨率。短时傅里叶变换：STFT通过对信号进行分段，对每个片段应用汉宁窗口，能减少频谱泄漏，获得更准确的频谱信息。本节代码。

2024-08-05 15:59:35 1418

原创音频模型_HiFiGAN源码解析2

HiFiGAN-2

2024-07-30 14:41:06 776

原创音频模型_HiFiGAN源码解析1

HiFiGAN 解析

2024-07-30 14:34:55 903

原创音频处理6_时频谱

介绍时频表征-分析 (time-frequency representation/analysis) 常用的时频图

2024-07-08 00:54:01 1362

原创音频处理7_MFCCs

短时傅里叶变换 (Short-Time Fourier Transform, STFT) 是一种时频谱转换算法，它通过在时间上移动窗口函数并计算窗口内信号的频谱来获得信号在时间和频率上的信息。填充信号可以确保每个窗口都有足够的数据进行频谱计算，特别是在窗口函数的边缘。窗口函数主要用于信号处理中的短时傅里叶变换（STFT）、滤波器设计和其他需要对信号进行窗函数处理的场景，可减少频谱泄漏，避免傅里叶变换中的频谱混叠。

2024-07-08 00:50:19 989

原创音频处理5_傅里叶变换

傅里叶变换相关概念和代码

2024-06-28 01:13:49 1377

原创音频处理4_音高(频率) & 强度(分贝)

介绍音频：”音高”的概念，与对应频率单位，和不同频率的音频感知分类。再介绍声音”强度”的概念，即响度，对应“分贝”单位，及不同强度音频的感知和分类。

2024-06-27 15:26:45 2697

原创 Package libcudnn8 is not installed.的问题

安装CUDNN时，如果选择 Deb安装方法，有三个安装包要安装，必须先安装runtime版本，再安装developer版本，不然就会出现以下问题：dpkg: dependency problems prevent configuration of libcudnn8-dev:libcudnn8-dev depends on libcudnn8 (= 8.0.5.39-1+cuda10.1); however:Package libcudnn8 is not installed.dpkg: err

2024-06-23 12:23:08 402