瑞雪兆我心-CSDN博客

原创使用 Seq2Seq 模型进行文本摘要

选择低于第3部分中定义的最大长度的文本和摘要。import numpy as np # 导入 numpy 库并重命名为 npcleaned_text = np.array(pre['cleaned_text']) # 将 'cleaned_text' 列转换为 numpy 数组cleaned_summary= np.array(pre['cleaned_summary']) # 将 'cleaned_summary' 列转换为 numpy 数组。

2024-03-31 21:30:11 1317

原创 FunASR 语音识别系统概述

FunASR（A Fundamental End-to-End Speech Recognition Toolkit）是一个基础的语音识别工具包，提供多种功能，包括等。

2024-03-30 09:56:48 1289

原创实时语音识别（Python+HTML实战）

该项目支持麦克风实时录音功能，同时可以传入多种音频格式的文件（如 .wav, .pcm, .mp3 等），也支持视频输入(如 .mp4 等)，以及多文件列表 wav.scp 输入。运行 FunASR-main/runtime/python/websocket/funasr_wss_server.py 文件，加载模型。项目提示所需要下载的库文件：pip install -U funasr 和 pip install modelscope。注：如果提示缺少什么模型，就 pip 下载什么模型。

2024-03-29 09:42:15 1308

原创运动视觉增强影像技术非接触式振动测量系统

运动视觉增强影像技术非接触式振动测量系统，也称做高速相机全场振动测量系统、振动视觉增强影测量系统，是一种利用运动视觉增强影像技术，进行非接触式测量物体振动和运动的先进技术的系统。这种系统通常包括高速相机、激光传感器或其他传感器以及相关的数据处理软件。系统通过高速相机捕捉物体的运动和振动，激光传感器则用于精确测量物体的位移和形变。

2024-03-28 15:48:36 1035

原创心理治疗聊天机器人的调查

这项调查旨在调查、分析和比较现有聊天机器人在心理治疗中的可行性和缺陷。调查指出了未来心理治疗聊天机器人所需的一系列任务。我们在公共数据库中检索了约1200篇相关文献，并选择了五种典型的和最先进的心理治疗聊天机器人。大多数最先进的心理治疗聊天机器人使用检索式方法生成对话。一些心理治疗聊天机器人结合了心理学理论，如认知行为疗法，来解决独特的心理问题。评估显示，聊天机器人可以初步识别特定类型的负面情绪，并给出相对恰当的回应。随机对照试验证明，心理治疗聊天机器人对一些有心理健康问题的人有用。

2024-03-27 11:32:06 1283

原创数字心理健康中的人工智能聊天机器人

人工智能（AI）聊天机器人自2022年以来备受关注。凭借大数据、自然语言处理（NLP）和机器学习（ML）算法支持，它们具有扩展能力、提高生产力并在各个领域提供指导和支持的潜力。人工智能与人类（HAI）被提出，以帮助将人类价值观、同理心和道德考量融入AI中，以解决AI聊天机器人的局限性并增强其效力。心理健康是一个关键的全球问题，对个人、社区和经济都有重大影响。利用AI和ML的数字心理健康解决方案应运而生，以应对心理健康护理中的获取、社会污名和成本等挑战。尽管具有潜力，但围绕这些技术的道德和法律问题仍不确定。

2024-03-26 11:49:02 1005

原创 HuggingFace 模型使用指南

HuggingFace 模型共有三个部分组成：Tokennizer、Model 和 Post Processing。

2024-03-25 11:39:52 1405

原创十七、BART

模型是仅使用 Transformer-结构的预训练语言模型。模型是仅使用 Transformer-结构的预训练语言模型。uto-egressiveransformers）模型是使用标准的 Transformer-模型整体结构的预训练语言模型。其在标准的 Seq2Seq Transformer Model 的基础之上，融合了 BERT 的 Bidirectional Encoder 和 GPT 的 Left-to-Right Recoder 的优点，使得它比 BERT 更适合文本生成的场景；

2024-03-24 17:56:04 1067

原创大模型微调方法和技术路线

大模型中有一部分参数，是非常重要的，是影响大模型生成结果的关键参数，这部分关键参数就是上面提到的低维的本质模型）。QLoRA：Efficient Finetuning of Quantized Large Language Models，比 LoRA 多了一步量化（是一种在保证模型效果基本不降低的前提下，通过降低参数的精度，来减少模型对于计算资源的需求的方法），量化的核心目标是降低训练成本，特别是降后期的推理成本。只对有效部分的参数进行训练，是目前比较主流的微调方案，其中比较流行的有。

2024-03-23 09:47:15 1050

原创分布式深度学习中的并行性

分布式深度学习是指使用包含多个工作线程的分布式系统来执行推理或训练深度学习。人们一直在考虑通过横向扩展来加速深度学习，并引入了许多并行化机制（即将计算分发给多个工作线程的方式），主要分为和三种类型。

2024-03-22 17:43:07 1168

原创人工智能在心理健康评估和干预中的应用

在面对现代社会中不断增加的心理健康问题时，人工智能技术提供更精确、高效和实时的评估和干预手段。然而，保护数据隐私、解决伦理问题、提高模型可解释性以及跨学科合作都是前进的关键，这一领域的发展将继续促进技术的融合。

2024-03-21 15:33:17 1564

原创卷积神经网络（CNN）

是一种具有等特点的又称作，是也称为的变种，擅长处理图像特别是图像识别等相关机器学习问题，比如图像分类、目标检测、图像分割等各种视觉任务。前馈神经网络（FNN）、全连接神经网络（FCNN）、多层感知机（MLP）、人工神经网络（ANN）这些术语在一定的上下文中可以指代相似的概念，但有时也有一些微妙的区别。

2024-03-20 11:06:27 1396

原创主成成分分析（PCA 数据降维）

在很多场景中需要对多变量数据进行观测，在一定程度上增加了数据采集的工作量。是一种使用最广泛的数据降维算法（非监督的机器学习方法）。旨在降低数据的维数，通过保留数据集中的主要成分来简化数据集（选取出更便于人类理解的特征）。主成分分析的主要思想：上，这，是在出来的 k 维特征。

2024-03-19 11:27:15 1095

原创十六、XLNet

的出发点是：能否融合自回归 AutoRegressive (AR) Language Model 与自编码 AutoEncoding (AE) Language Model 两种语言模型的优点（就是说如果站在 AR 的角度，如何引入与双向语言模型等价的效果；如果站在 AE 的角度看，它本身是融入双向语言模型的，如何抛掉表面的 [Mask] 标记，让预训练 Pre-Training 和微调 Fine-Tuning 数据保持一致）

2024-03-18 17:15:24 1113

原创十四、GPT

的核心思想在于通过少量的数据寻找一个合适的初始化范围，使得模型能够在有限的数据集上快速拟合，并获得不错的效果（对于一个少样本的任务来说，模型的初始化值非常重要，从一个好的初始化值作为起点，模型能够尽快收敛，使得到的结果非常快的逼近全局最优解）。这使得模型能够从少量示例中学习新的类别，并在面对新的输入时进行准确分类。GPT-2 的目标旨在训练一个泛化能力更强的词向量模型，它并没有对 GPT-1 的网络进行过多的结构的创新与设计，只是使用了更多的网络参数和更大的数据集。GPT-1 语言模型通过大量的。

2024-03-17 09:21:15 1300

原创十五、自回归（AutoRegressive）和自编码（AutoEncoding）语言模型

就是根据上文内容（或下文内容）预测下一个（或前一个）可能跟随的单词，就是常说的自左向右（或自右向左）的语言模型任务，即通过前 t - 1（或后 t - 1 ）个 tokens 来预测当前时刻 t 的 token，代表的自回归语言模型有 ELMO 和 GPT。（DAE），是通过上下文单词来预测被 [Mask] 的 token（这些被 [Mask] 掉的单词其实就是在输入端加入的噪音，是典型的的思路），通俗地被称为“完形填空”，代表的自编码语言模型有 Word2Vec（CBOW）和 BERT。

2024-03-16 09:38:06 989

原创十三、BERT

BERT（Bidirectional Encoder Representation from Transformers），基于 Transformer 的双向编码表示，模型训练时的两个任务是预测句子中被掩盖的词以及判断输入的两个句子是不是上下句。论文中介绍了2种版本：BERT_BASE 和 BERT_LARGE。两个 BERT 的模型相比于 Transformer 有更多的编码器层数、前馈神经网络和多注意力头，如 BERT_BASE 有12层、768 个隐藏层神经元，12个多注意力头；

2024-03-15 17:30:19 1417

原创十二、Transformer

Transformer 由 Encoder 和 Decoder 两个部分组成，Encoder 和 Decoder 都包含 6 个 block。

2024-03-14 11:02:42 1298

原创十一、注意力机制（Attention Mechanism）

注意力机制是一种模仿人类视觉和认知系统的方法，允许神经网络在处理输入数据时集中注意力于相关的部分。核心目标也是从众多信息中选出对当前任务目标更加关键的信息。通过引入注意力机制，神经网络能够自动地学习并选择性地关注输入中的重要信息，提高模型的性能和泛化能力。注意力机制最主要包括和。不同的注意力机制模型对输入序列的不同位置分配不同的权重，以便在处理每个序列元素时专注于最相关的部分。

2024-03-13 09:22:34 1242

原创十、编码器-解码器模型（Encoder-Decoder）

Encoder-Decoder 有一个比较显著的特征就是它是一个 End-to-End 的学习算法，以机器翻译为例，将英语翻译成汉语这样的模型叫做 Seq2Seq。解码器嵌入层：将输出句子中的每个单词的 One-Hot 独热编码向量转换为嵌入向量。解码器输出层：将隐藏向量生成的输出句子转换成 One-Hot 独热编码向量的概率。解码器由三层组成：嵌入层、循环层和输出层。编码器嵌入层：将输入句子每个单词的 One-Hot独热编码向量转换为嵌入向量。解码器循环层：将输出句子每个单词的嵌入向量生成隐藏向量。

2024-03-12 09:41:27 768 1

原创九、ELMo 语言模型

ELMo（Embeddings from Language Models）兼顾了两个问题：一是词语用法在语义和语法上的复杂特点；二是随着语言环境的改变，这些用法也应该随之改变，解决多义词的问题。ELMo 模型原理图中虚线的部分是两个双层的 LSTM 网络结构。也就是说ELMo 会同时考虑上文和下文。

2024-03-11 08:57:43 1007

原创八、词嵌入语言模型（Word Embedding）

词嵌入（Word Embedding, WE），任务是把的词转换为的向量，从而便于进行数学处理。一个更官方一点的定义是：词嵌入是是指把一个维数为所有词的数量的（one-hot形式表示的词）【嵌入】到一个的连续向量空间中，每个单词或词组被映射为实数域上的向量。Word Embedding 解决了 One-Hot 独热编码的两个问题。

2024-03-10 15:26:50 1339 1

原创七、门控循环单元语言模型（GRU）

（Gated Recurrent Unit，GRU）是 LSTM 的一个稍微简化的变体，通常能够提供同等的效果，并且计算训练的速度更快。重置门有助于捕获序列中的短期依赖关系；更新门有助于捕获序列中的长期依赖关系。

2024-03-09 21:35:07 835 1

原创六、长短时记忆网络语言模型（LSTM）

用 tanh 函数层将当前时刻向量中的有效信息提取出来压缩映射到区间 (-1, 1) 中创造了一个当前单元状态的候选 C'(t)，然后使用图中 tanh 函数层左侧的 sigmoid 函数来控制这些记忆要放“多少”进入单元状态（为每个分量做出评级 (0, 1)，评级越高的会有越多的记忆进入单元状态）遗忘门 forget gate：LSTM会先根据新的输入和上一时刻的输出决定遗忘掉之前的哪些记忆——输入和上一步的输出会整合为一个单独的向量，然后通过sigmoid神经层，最后点对点的乘在单元状态上。

2024-03-08 22:19:59 1439 2

原创五、循环神经网络语言模型（RNN）

循环神经网络（Recurrent Neural Network, RNN），又称为递归神经网络（Recursive Neural Network, RNN）是一种用于处理具有序列关系数据的网络。RNN的本质就像人一样拥有记忆的能力，表现为网络会对当前时刻之前的序列信息进行记忆并应用于当前时刻输出的计算中。在序列的演进方向进行递归运算，其中隐藏层之间的节点不再无连接而是有连接的，并且隐藏层的输入不仅包括当前时刻输入层的输出还包括上一时刻隐藏层的输出。

2024-03-07 20:15:50 687

原创四、神经网络语言模型（NNLM）

神经网络（Neural Network，NN）主要由输入层、隐藏层、输出层构成，输入层的的节点数等于待处理数据中输入变量的个数（每一个变量代表了一个特征），输出层的节点数等于与每个输入变量关联的输出的数量（代表了分类标签的个数）。不论是回归还是分类任务，输入和输出层的节点数是固定的（在做二分类时，如果采用 sigmoid 分类器，输出层的个数为 1 个；理论上，隐藏层的层数越深，拟合函数的能力越强，效果按理说会更好，但是实际上更深的层数可能会带来过拟合的问题，同时也会增加训练难度，使模型难以收敛。

2024-03-06 22:55:42 2209 2

原创三、N元语法（N-gram）

N-gram 统计语言模型是用来计算句子概率的概率模型，即某一个词的出现由其前面每一个词出现的概率决定。随着N的取值越大，N-gram 模型在理论上越精确，但是也越复杂，需要的计算量和训练语料数据量也就越大，并且精度提升的不够明显，所以在实际的任务中很少使用n＞3的语言模型。这些缺陷，将词表示成一个低维的实数向量，且相似的词的向量表示是相近的，可以用向量之间的距离来衡量相似度。这样我们就完成了 Bi-gram 各个概率值的计算，整个句子的概率就是挑选出对应的概率相乘即可。

2024-03-05 22:09:14 1404

原创二、词袋模型（BOW）

词袋模型的基本思想是把一个句子转化为向量表示，它不考虑句子中单词的顺序，仅仅考虑语料库某个词在这个句子中的出现次数。

2024-03-04 11:17:53 755 1

原创一、独热编码（One-Hot）

One-Hot编码，又称为一位有效编码，将互相独立的标签表示为互相独立的二进制数字，每个样本只对应于一个类别（即只在对应的特征处值为1，其余特征处值为0），保证了独立标签之间的距离相等，即互相独立的标签之间相似性相同。

2024-03-03 11:30:44 911

原创 LSTM实战：基于PyTorch的新冠疫情确诊人数预测

每个训练示例包含 9 个历史数据点序列和 1 个标签，该标签表示我们的模型需要预测的真实值。接下来看看我们转换后的数据的样貌。将训练数据、测试数据及预测数据绘制在同一张画布上，一起比较下预测结果。使用所有数据来训练相同的模型，预测未来 30 天的确诊病例。下图中有一个巨大的峰值主要是由于中国患者检测标准的变化。模型性能不是很好，但考虑到数据量很少，这是可以预期的。去除前四列无用数据，保留每日累计确诊病例数据。正如预期的那样，我们的模型效果表现不佳。预测未来 30 天确诊病例的数据。定义训练模型的辅助函数。

2024-03-02 17:35:21 1348

原创深度学习中的互相关计算Crosscorrelation Operation

三输入通道的一维互相关运算就是由第一个输入数组的最左边长度为2的子数组与第一个核数组按元素相乘后相加2×(-1)+3×(-3)=-2+-9=-11再加上，第二个输入数组的最左边长度为2的子数组与第二个核数组按元素相乘后相加1×3+2×4=3+8=11再加上，第三个输入数组的最左边长度为2的子数组与第三个核数组按元素相乘后相加0×1+1×2=0+2=2，得到输出数组的第一个元素值，即-11+11+2=2。在单输入通道的一维互相关运算中，卷积窗口从输入数组的最左方开始，按从左往右的顺序，依次在输入数组上滑动。

2024-03-01 15:40:45 583 1

空空如也

空空如也