山海之风-CSDN博客

原创快速实现藏语 TTS - 支持多方言增强版本

Meta 的 Massively Multilingual Speech（MMS）项目在 Hugging Face 上提供了大规模多语言 TTS checkpoint 集合，每种语言/方言通常对应一个独立模型。MMS-TTS 在 Transformers 中以 VITS（VitsModel）方式推理，从 Transformers开始可用。

2026-03-02 14:41:11 777

原创图像识别零基础实战入门 3 第一次训练图像分类模型

输入：一张图片（猫或狗）输出：模型给出两个类别的分数（logits）或概率类别 0：cat类别 1：dog训练时，你会给模型“图片 + 正确标签”，让它学会输出正确类别更高的分数。

2026-01-11 21:52:44 409

原创图像识别零基础实战入门 2 AI 是如何学会进行图像分类的

图像分类（Image Classification）是计算机视觉中最基础、也是最常见的任务之一。输入一张图片，输出该图片所属的类别。输入一张图片，输出“猫”或“狗”输入一张图片，输出“正常”或“异常”在图像分类任务中，计算机并不需要给出理由，也不需要标出图片中具体的位置，它只需要在给定的类别集合中做出一次选择。训练是指通过大量样本，使模型在反复预测与纠错中逐步调整自身参数，从而提高预测准确性的过程。这一过程并非一次完成，而是通过多轮重复实现的。

2026-01-11 14:40:57 532

原创图像识别零基础实战入门 1 计算机如何“看”一张图片

人看一张图片，会直接看到“人、物体、颜色、场景”。计算机并不知道这是“绿色偏亮”，这就是计算机眼中的“颜色”。一张普通彩色图片，通常由。准备一张任意图片，例如。你可以把图片理解成一张。，和代码放在同一目录。你会看到三张灰度图。

2026-01-10 22:31:44 495

原创人工智能基础与应用 - 数据处理、建模与预测流程 8 基础模型之分类模型

分类模型预测结果属于哪一类。结果不是一个连续数值而是一个类别或标签。

2025-12-29 20:12:04 1068

原创人工智能基础与应用 - 数据处理、建模与预测流程 7 基础模型之回归模型

在人工智能中，回归模型预测一个连续的数值结果。预测每日步数预测房价预测销售额预测能耗、费用或时间只要预测目标是一个具体数值，通常就可以考虑使用回归模型。

2025-12-28 21:25:15 949

原创人工智能基础与应用 - 数据处理、建模与预测流程 6 模型训练

在人工智能中，模型并不是某个具体程序或文件一种用来描述“输入与输出之间关系”的数学结构。模型，就是数据规律的“总结版本”。在初学阶段，很多人会误以为：“模型训练就是把答案记住”通过大量样本，找到输入与输出之间的规律。

2025-12-28 20:53:26 591

原创人工智能基础与应用 - 数据处理、建模与预测流程 5 特征工程基础

特征工程将原始数据加工、转换成更适合模型学习的特征的过程。特征工程不一定“新增数据”更多时候是在重新表达已有数据将“出生年份”转换为“年龄”将“是否达标”从文字转换为 0/1。

2025-12-28 20:12:25 812

原创人工智能基础与应用 - 数据处理、建模与预测流程 4 数据清洗

明显偏离正常范围的数值年龄为 -5每日步数为 200000这些值通常不是“极端用户”，而是数据错误。

2025-12-28 08:48:17 1112

原创人工智能基础与应用 - 数据处理、建模与预测流程 3 数据获取与数据理解

假设我们从系统中导出了一份 CSV 文件，记录了用户的基本运动情况。在学习阶段，这类数据非常适合用于练习。这些问题会在后续清洗中重点处理。健身系统中每天记录的运动数据。，演示如何获取和初步查看数据。这些内容将为下一章的。

2025-12-28 08:29:55 916

原创人工智能基础与应用 - 数据处理、建模与预测流程 2 : 数据与问题类型

在实际工作中，数据并不是抽象存在的。系统日志业务记录用户行为问卷或表单用户年龄每日步数运动时长是否达标这些记录汇总在一起，就形成了人工智能训练所需的数据。对人工智能而言，数据就是对现实世界的“数字化描述”。特征是原因，标签是结果，样本是一次完整记录。

2025-12-27 22:19:41 792

原创人工智能基础与应用 - 数据处理、建模与预测流程 1 : 了解人工智能

手机里的语音助手视频平台的推荐系统商城中的“猜你喜欢”风险提示或智能评分系统它们不是靠人工写死规则工作，而是通过历史数据学习规律，再对新情况做出预测或判断。一种基于数据学习规律，并对未知情况进行预测或决策的技术方法。数据、学习、预测。在人工智能中，“学习”并不等同于人类的理解或思考。学习是指通过已有数据，建立输入与输出之间的映射关系。输入：汽车的重量、马力输出：油耗不同输入组合对应怎样的输出结果这一过程称为模型训练。预测是人工智能系统最终对外体现的能力。

2025-12-27 21:38:57 1026

原创藏文TTS介绍：6 MMS 项目的多语言 TTS

TTS 不适合“一个模型说所有语言”方法统一，语言分开藏语 TTS 有独立模型工程上，问题更好定位、产品更稳定。

2025-12-22 19:06:05 585

原创藏文TTS介绍：5 VITS 在干什么？——从“听感”角度理解端到端 TTS

VITS 的“端到端”体现在整句层面建模自然感来自全局规划，而非后期处理可以通过听感差异来理解模型机制。

2025-12-22 15:18:36 205

原创藏文TTS介绍：4 神经网络 TTS 的随机性与自然度

神经网络 TTS 的输出存在“受约束的随机性”固定随机种子可以获得高度可复现的输出随机性是自然度的重要来源，工程上应按场景取舍这一结论将在后续理解 VITS 与多语言 TTS 策略时反复出现。

2025-12-22 13:16:51 1107

原创藏文TTS介绍：3 传统 TTS的局限

维度传统 TTS神经网络 TTS方法规则 + 拼接数据驱动自然度有明显机械感接近人类工程复杂度高（规则爆炸）集中在训练可扩展性差强低资源语言极难可行传统 TTS 的工程逻辑与历史背景拼接式 TTS 在复杂语言中的结构性局限神经网络 TTS 并非“更聪明”，而是换了一种问题解决方式这为后续理解 VITS 等模型奠定了必要背景。

2025-12-22 11:28:40 885

原创藏文TTS介绍： 2 声音在计算机里如何表示和存储？

以固定的时间间隔，记录声音振动的强度。每隔一小段时间用一个数字记录“此刻振动有多强”这些数字按时间顺序排列，就构成了声音数据。声音在计算机中是离散数值序列采样率决定时间分辨率wav 文件是“数据 + 描述信息”的组合现代 TTS 直接生成波形数据这些认知，将在后续章节中反复被使用。

2025-12-22 09:08:08 629

原创藏文TTS介绍：1 第一次上手TTS

文本到语音（Text-to-Speech, TTS），是指将书面文本转换为可听语音的技术。早期的 TTS 系统主要依赖规则与音频拼接，但这种方法在自然度、扩展性以及多语言支持方面存在明显局限。现代 TTS 系统则基于神经网络，通过学习大量“文本—语音”对，掌握人类朗读的整体模式。本书后续内容所涉及的，均属于这一类现代 TTS 方法。理解 TTS 的基本定义知道现代 TTS 与传统拼接式方法的根本差异能够在本地运行安多藏文 TTS 示例对后续深入学习建立正确的心理预期。

2025-12-22 08:42:36 388

原创语音合成 - 用 Python 合成藏语三大方言语音

通过使用藏语语音合成技术，可以把一段藏文文字，快速变成可用的音频，用在短视频、朗读、课件或字幕配音里。它们都属于 Meta 的 MMS-TTS 系列，并且在 Transformers就能直接调用。

2025-12-14 21:34:04 1183 2

原创用 Meta MMS-TTS + Python在本地实现藏文语音合成

关键词：藏语、TTS、本地运行、MMS、VITS、Python。

2025-11-30 23:13:02 1191 2

原创区块链入门教程 5 模拟读懂一笔交易

—跟着小林逛一圈链上数据本系列聚焦区块链 / 比特币协议的场景默认为：课程或实验室中搭建的本地实验网络，不涉及、也不指导任何真实资产交易与投机行为。

2025-11-20 20:33:18 1017

原创区块链入门教程 4 模拟一笔交易

—从课堂模拟到理解真实协议本系列聚焦区块链 / 比特币协议的场景默认为：课程或实验室中搭建的本地实验网络，不涉及、也不指导任何真实资产交易与投机行为。

2025-11-20 17:51:36 1094

原创区块链入门教程 3 私钥、公钥、地址 & 钱包安全

—从“密码”到“钥匙”的完整故事本系列只讨论技术和学习，不构成任何投资建议。本讲不涉及任何真实资金操作，只讲概念 + 安全习惯。

2025-11-20 15:14:41 1473

原创区块链入门教程 2 比特币里的“转账”

比特币里的“转账”到底发生了什么？——从“点发送”到“被写进账本”本系列只讨论技术和应用，不构成任何投资建议。

2025-11-19 20:13:38 1469

原创区块链入门教程 1 快速入门

刚才我们说的是“大家都记账”，但还没说“区块”和“链”。继续用小区账本的比喻：先在草稿纸上收集一段时间内的交易记录；比如每 10 分钟整理一次，打成一页，编号为“第 N 页”。这一页的编号（第几页）时间“上一页”的某个摘要（比如上一页内容的指纹）第 1 页 → 第 2 页 → 第 3 页 …每一页都“指向”上一页，形成一条“链”。一页账 = 一个区块（Block）页与页之间的指向关系 = 前一区块哈希一本连续的账本 = 区块链（Blockchain）

2025-11-18 09:30:59 1060

原创藏语自然语言处理入门 - 5 文本归类

直接去看“贡献最大的词”，就能明白模型根据什么做了判断。一列，另存为 labels.csv。（若想先跑通，可直接用我提供的。：只加载你自己训练或可信来源的。（谁把分数“抬”上去了）。：在给出预测的同时，列出。（哪两类最容易混）。文件：下次不用重训，

2025-10-03 16:30:13 829

原创藏语自然语言处理入门 - 4 找相似的句子

做一个**“去重”**小规则：如果返回的句子同一行在原文里重复多次，只保留一次（可以按句子文本去重）。多加几段同主题的句子，或先回第1–3课把清洗/停用词做好。如果当前环境网络不方便，可先看懂流程与代码，改天在网络好时跑一下。你会看到最接近的 5 句（通常是各种问候、祝福类句子）。等网络好再换回 LaBSE 做最终检索。句向量是多语的，一般也能“感觉”相似，但这门课我们以。你也可以换成 MiniLM 版本试试。每行一个查询），一次性批量生成结果。或者在返回阶段做“文本去重”。，然后对你输入的句子做检索。

2025-10-02 22:12:50 853

原创藏语自然语言处理入门 - 3 找关键词

这个词在“当前这句/段”里出现几次？出现越多，越重要。：这个词在“整份语料”里稀不稀有？越稀有越重要（到处都有就不重要）。TF × IDF = TF-IDF 分数：分数越高，越像“关键词”。ནས་这类功能词几乎句句都有 →IDF≈0→ 再高的 TF 也乘成 0 →不是关键词。བོད་ཡིགསློབ་ཚན这种“内容词”并非处处都有 →IDF>0→ 有机会成关键词。先分词靠谱（用 Botok），再配停用词表（把“粘合词”剔除），TF-IDF 才更准。

2025-10-02 16:06:55 474

原创藏语自然语言处理入门 - 2 分词

做完你会得到三个文件：先装三个包（本地或 Colab 都行）：1. 我们需要的输入（1 分钟）上节我们已经有：把下面代码保存为，和放在同一目录下运行即可。读者版讲解（一句话就够）：执行：看终端提示，会生成三个文件：、、。用表格工具或随便打印几行看看，确认分词结果合你的直觉。任务A（必做）：把里你不认同的词删掉，再加上你觉得多余的词，得到你的自定义停用词表。任务B（可选）：做一个小查询：输入一个词，打印它出现的所有句子（句ID + 句子内容），方便课堂展示“例句”。提示代码：

2025-10-02 15:30:20 430

原创藏语自然语言处理入门 - 1 清理文本

你会看到：前面有装饰，行尾有“1/2”，还有括号注释和乱空格——这些就是我们要清理的内容。用本地 Python 或 Google Colab 都行。更友好地处理 Unicode。（或 Colab 单元格）。

2025-10-02 14:56:20 508

原创 13 端到端 RAG Demo（bge + 向量数据库 + DeepSeek R1）

本文介绍了如何构建一个端到端的RAG（检索增强生成）系统，使用bge嵌入模型、向量数据库和DeepSeek R1大语言模型实现知识库问答功能。文章首先讲解了RAG的三个核心环节：文档预处理、用户提问处理、生成回答。然后提供了两个版本的Python实现：基础版实现最小可用功能，升级版增加了答案引用来源编号显示，使回答更具可信度和可追溯性。从产品经理角度，强调了展示出处的重要性，并提出了扩展方向，如多来源融合、高亮匹配等。最终实现了一个符合企业应用场景的知识库问答助手雏形。

2025-09-11 14:39:38 908

原创 12 Prompt 模板化与参数化

本文介绍了Prompt模板化与参数化的概念与实践。通过将提示词转化为可复用模板，并用参数控制内容，可以避免重复劳动、保证输出一致性、便于迭代调优。文章提供了Python代码示例，展示如何构建一个客服机器人模板生成器，实现风格统一的自动回复。从产品经理视角看，模板化能提升AI产品的可控性、可维护性和扩展性，适用于客服、教育、金融等场景。最后强调模板化是优化AI提示词工程的有效方法，能显著提升工作效率和输出质量。

2025-09-11 14:07:20 550

原创 11 Prompt 工程进阶：Few-shot 与 Chain-of-Thought

本文介绍了Prompt工程中的Few-shot与Chain-of-Thought（CoT）两种进阶技巧。Few-shot通过提供示例让AI模仿回答风格，而CoT则要求模型展示推理过程以提高准确性。文章通过Python代码示例对比了Zero-shot、Few-shot和CoT的差异，并指出DeepSeek R1模型会默认输出推理过程。产品经理需理解这些技术以优化交互设计、控制回答风格并确保准确性，如教育产品展示解题步骤或客服机器人保持统一口吻。Prompt工程是调节AI产品体验的关键，不同模型的行为差异也需纳

2025-09-11 10:48:39 1251

空空如也

空空如也