MYH516-CSDN博客

原创 BERT 模型微调与传统机器学习的对比

BERT 微调入门示例，展示了如何将预训练语言模型应用于特定的分类任务。随着 Transformer 架构的普及，这种方法已经成为 NLP 任务的主流解决方案。

2025-06-11 10:29:58 356

原创传统机器学习与大模型 + Prompt 的对比示例

下面两段代码分别展示了传统机器学习和大模型 + Prompt 在文本分类任务上的实现方式，帮助你直观感受两者的差异。

2025-06-11 10:21:22 457

原创对话机器人预测场景与 Prompt / 模型选择指南

通过结合场景特性动态调整 Prompt 设计与模型选择，可最大化对话机器人的响应质量与效率。

2025-06-11 10:01:06 305

原创意图分类策略选择：小模型微调 vs 大模型 Prompt

在处理意图分类任务时，选择「大模型 Prompt」还是「小模型微调」确实取决于意图类别的数量和数据规模。我来详细解释这个决策逻辑，并提供具体实现方案。实际应用中，建议先从大模型 Prompt 快速验证，随着意图数量和数据量增长，逐步过渡到混合架构或纯小模型方案。

2025-06-10 22:15:44 265

原创深度学习聊天机器人需要考虑

优秀的聊天机器人需要 “数据 + 模型 + 策略 + 工程” 的协同优化。对于小规模数据场景，需优先解决数据质量和参数效率问题；而大规模应用则需兼顾泛化性、知识准确性和用户体验。通过持续迭代和多维度优化，逐步提升模型在流畅性、逻辑性、知识性和可控性上的表现。

2025-06-10 22:01:50 863

结合 RNN 的输出和 CRF 的转移矩阵，使用维特比算法（Viterbi Algorithm）找到最优标签序列。中文与英文不同，词与词之间没有空格分隔。分词就是要在连续的字符流中找出正确的词边界。在中文分词中，每个字符的标签不仅取决于自身，还与前后文相关。RNN 直接预测每个字符的标签时，会忽略标签之间的约束关系（如。普通 RNN 只能看到左侧上下文（从左到右），而中文分词需要。依次处理序列中的每个元素，并维护一个。循环神经网络（RNN）的核心优势是。是标签数量，如 4），其中。最常用的分词标注方案是。

2025-06-10 15:00:00 720

原创中文分词双向匹配

（Bidirectional Maximum Matching）是正向最大匹配（FMM）和逆向最大匹配（RMM）的结合，通过比较两种匹配结果选择最优切分。

2025-06-09 19:34:17 280

原创 rnn判断string中第一次出现a的下标

问题：原模型仅使用最后一个时间步的隐藏状态，忽略中间时间步的信息。改进：对 RNN 的所有时间步输出取平均或池化，获取更全面的特征。代码调整python运行# 平均池化：对所有时间步取平均# ...五、完整优化后代码（关键部分）python运行dropout=0.2 # 层间Dropout# 平均池化替代仅取最后隐藏状态else:# 训练配置优化epoch_num = 50 # 增加训练轮数batch_size = 32 # 增大批量大小。

2025-06-09 11:33:44 1062

原创 conda相比python好处

Conda 通过整合环境管理、依赖解析和跨平台支持，显著降低了复杂项目的配置成本，尤其适合团队协作和长期维护的工程化项目。+ 虚拟环境）有许多独特优势，尤其在多项目管理、依赖处理和跨平台兼容性等方面表现更优。Conda 作为 Python 的环境和包管理工具，相比原生 Python 生态（如。

2025-06-09 06:24:36 880

原创拉力测试cuda pytorch 把 4070显卡拉满

print(f"已运行 {elapsed:.1f}s / {duration}s，迭代次数: {iterations}")print(f"使用GPU: {torch.cuda.get_device_name(device)}")print(f"正在创建 {matrix_size}x{matrix_size} 的矩阵...")print(f"平均每秒迭代: {iterations / elapsed:.2f}")print(f"总运行时间: {elapsed:.2f} 秒")print("测试被用户中断")

2025-06-09 06:12:55 541 1

原创 cuda gpu版本效率

print(f"当前 CUDA 设备: {torch.cuda.get_device_name(0)}")print(f"可用 CUDA 设备数量: {torch.cuda.device_count()}")print(f"CUDA 可用: {torch.cuda.is_available()}")print(f"GPU 加速比: {cpu_time/gpu_time:.2f}x")print(f"GPU 计算耗时: {gpu_time:.4f} 秒")# 在 GPU 上创建随机矩阵。

2025-06-09 06:11:10 353

原创 TF IDF使用场景

TF-IDF（词频 - 逆文档频率）是文本挖掘与信息检索领域经典加权技术，核心用于评估词语对文档的重要性，常见使用场景如下：

2025-06-08 15:35:54 177

原创新词发现词分完可以做什么

新词发现在完成分词后，可以进一步应用于多个领域，帮助挖掘文本数据中的价值、提升自然语言处理任务的效果。通过以上应用，新词发现不仅能提升 NLP 任务的基础能力，还能为各行业提供数据驱动的决策支持，是文本数据价值挖掘的重要环节。

2025-06-08 14:49:58 696

原创 jieba实现和用RNN实现中文分词的区别

二者并非替代关系，实际应用中常结合使用（如用 Jieba 生成初始结果，再用 RNN 优化）。选择哪种方法取决于具体场景的。，而 RNN 分词体现了。

2025-06-08 11:27:08 1022

原创手动给中文分词和直接用神经网络RNN做有什么区别

你的代码使用 RNN 实现分词，正是利用了神经网络在上下文建模和自动特征提取上的优势，尤其适合处理未登录词和复杂语义场景。而神经网络分词更适合。

2025-06-08 11:18:00 582

原创 hugging face 用现成的翻译模型离线做中英翻译

result = translation('我喜欢学习数据科学和机器学习。我让热爱英语很喜欢学大数据相关的工作也做了好几年擅长写hive spark', max_length=400)model_path = './local_model' # 之前保存的本地路径。save_dir = './local_model' # 本地存储路径。print(f"模型和分词器已保存到 {save_dir}")# 从本地加载模型和分词器。# 下载并保存分词器。

2025-06-08 03:21:27 396

原创多标签多分类用什么函数激活

在多标签多分类任务中，激活函数的选择需要根据任务特性和输出层的设计来决定。通过合理选择激活函数和损失函数，可高效解决多标签分类问题。

2025-06-08 02:19:27 718

原创隐藏层为什么用relu

输出层需根据任务选择激活函数（如分类用 Softmax/Sigmoid，回归用线性 / ReLU），隐藏层的 ReLU 不可直接用于输出。在深度学习中，隐藏层广泛使用 ReLU（Rectified Linear Unit，修正线性单元）作为激活函数，主要因其在。若输入均值为负，大量神经元会静默，需配合合适的初始化（如 He 初始化，针对 ReLU 设计，使输入方差为正）。：ReLU 用 “简单暴力” 的方式解决了梯度消失难题，让深层网络训练成为可能，是现代深度学习的重要基石之一。等方面具有显著优势。

2025-06-08 02:06:58 814

原创 sigmoid和softmax对比

导数 \(\sigma'(x) = \sigma(x)(1-\sigma(x))\)，在输入远离 0 时（如\(x > 4\)或\(x < -4\)），梯度接近 0，易导致。例如：输入\(2, 1, 0\) → Softmax 输出\(0.7, 0.2, 0.1\)。：梯度计算涉及所有输入值，公式较复杂。但结合交叉熵损失后，梯度表达式简化为 \(\text{输出值} - \text{真实标签}\)，训练更稳定。将整个实数轴压缩到 (0, 1) 区间，中间区域变化陡峭，两端趋于饱和。

2025-06-08 02:01:32 772

原创权重 w 和偏置 b

4D 张量形状为 \((\text{输出通道数}, \text{输入通道数}, \text{卷积核高}, \text{卷积核宽})\)。例如：3 通道输入，16 通道输出，卷积核 \(3 \times 3\)，则 w 形状为 \((16, 3, 3, 3)\)。形状为 \((\text{输入维度}, \text{输出维度})\)。形状为 \((\text{输出维度},)\)。：向量形状为 \((\text{输出通道数},)\)，即每个输出通道对应一个偏置。的形态取决于具体的层类型和数据维度。

2025-06-08 01:50:57 275

原创深度学习 w b

在深度学习中，权重 w 和偏置 b 是神经网络的核心参数，它们的形态（shape）取决于网络结构和数据维度。以下是关于 w 和 b 的详细解析：权重 w：连接神经元之间的强度，决定输入信号的重要性。偏置 b：调整神经元激活函数的阈值，增加模型的灵活性。假设：假设一个 3 层神经网络：python运行偏置 \(b_1\)：形状为 \((3,)\)，即： python运行第二层（隐藏→输出）权重 \(w_2\)：形状为 \((3, 1)\)，即： python运行

2025-06-08 01:49:35 547

原创神经网络隐藏层

从浅网络开始，逐步加深，同时关注验证集性能和训练速度。现代框架（如 PyTorch、TensorFlow）支持动态调整架构，便于实验不同层数的效果。神经网络中隐藏层的数量是一个超参数，其选择取决于任务复杂度、数据规模和计算资源。

2025-06-08 01:43:32 464

原创神经元激活函数在神经网络里起着关键作用

激活函数是神经网络的重要组成部分，它赋予了网络非线性表达能力，使网络能够学习复杂的模式。在实际应用中，要根据具体任务和模型架构来选择合适的激活函数，同时注意梯度消失等潜在问题。理解激活函数的原理和特性，有助于更高效地构建和训练神经网络。

2025-06-08 01:41:26 468

原创大模型与 NLP、Transformer 架构

大模型中的 Transformer 并非 “原始版本”，而是经过大量工程优化的变体，例如：

2025-06-06 19:51:06 1162

原创豆包和deepseek 元宝百度ai区别是什么

豆包、DeepSeek、元宝和百度 AI 有以下区别：

2025-06-06 19:44:25 1403

原创 mamba架构和transformer区别

Mamba 架构和 Transformer 架构存在多方面的区别，具体如下：

2025-06-06 19:43:55 361

原创类Transformer架构

Transformer 自 2017 年提出后，在自然语言处理（NLP）、计算机视觉（CV）、语音识别等领域引发了范式转变。除了原始 Transformer，以下是一些成熟且广泛应用的类 Transformer 架构及其核心改进：python运行 python运行 2. Swin Transformer（2021）改进：层次化结构：通过移动窗口（Shifted Window）降低计算复杂度，支持多尺度特征提取。应用：目标检测、语义分割（如 COCO 数据集 SO

2025-06-06 19:38:38 703

原创 cnn卷积神经变体

CNN（卷积神经网络）在计算机视觉领域取得了巨大成功，其变体主要围绕结构优化、计算效率、多尺度特征融合和注意力机制展开。以下是常见的 CNN 变体及其核心改进点：python运行总结图像分类：优先考虑 ResNet、EfficientNet 或 ConvNeXt。移动端部署：选择 MobileNetV3、ShuffleNetV2。需注意力机制：在基础架构中插入 SE 或 CBAM 模块。多尺度任务：使用 Inception 或 HRNet。选择时需权衡模型精度、计算复杂度和部

2025-06-06 19:35:39 630

原创 sklearn 和 pytorch tensorflow什么关系

在实际项目中，三者常结合使用（如 Scikit-learn 预处理 + PyTorch 训练模型 + TensorFlow 部署），形成完整的机器学习 pipeline。

2025-06-06 19:18:45 788

原创 transformer和 RNN以及他的几个变体区别改进

Transformer、RNN 及其变体（LSTM/GRU）是深度学习中处理序列数据的核心模型，但它们的架构设计和应用场景有显著差异。以下从技术原理、优缺点和适用场景三个维度进行对比分析：plaintext （其中 σ 为 sigmoid 函数，⊙为逐元素乘法） GRU：将遗忘门和输入门合并为更新门，减少参数约 30%，计算效率更高。 2. LSTM/GRU → Transformer：抛弃循环，引入注意力问题：LSTM/GRU 仍需按顺序处理序列，无法并行计算，长序列处

2025-06-06 19:14:47 1118

原创 RNN和CNN使用场景区别

RNN（循环神经网络）和 CNN（卷积神经网络）是深度学习中两种核心架构，它们的使用场景主要取决于数据结构和任务需求。

2025-06-06 19:09:24 1066

原创循环神经网络（RNN）

循环神经网络（RNN）的变体主要是为了解决传统 RNN 在处理长序列时的梯度消失 / 爆炸问题，以及提升模型对序列特征的捕捉能力。

2025-06-06 19:06:21 534

原创在NLP文本处理中，将字符映射到阿拉伯数字（构建词汇表vocab）的核心目的和意义

‌：字符到数字的映射是NLP数据预处理的核心步骤，实现了文本的标准化、数值化和批量化处理，为后续模型计算奠定基础。

2025-06-05 11:48:52 300

原创查看本机显卡信息

macOS: 使用 system_profiler 命令。print(f"不支持的操作系统: {system}")# Windows: 使用 wmic 命令。# Linux: 使用 lspci 命令。print(f"获取显卡信息失败: {e}")print("显卡信息:")print("显卡信息:")print("显卡信息:")

2025-06-05 11:43:07 242

原创 GPU加速与非加速的深度学习张量计算对比Demo，使用PyTorch展示关键差异

print(f"加速比: {cpu_time/gpu_time:.1f}倍")torch.cuda.synchronize() # 确保GPU计时准确。print(f"CPU计算时间: {cpu_time:.4f}秒")print(f"GPU计算时间: {gpu_time:.4f}秒")x_gpu = x_cpu.cuda() # 转移到GPU。# 创建大型随机张量 (10000x10000)

2025-06-05 11:37:31 356

原创深度学习张量

通过张量组织百维特征，结合深度学习模型（如Wide & Deep），可实现精准的“千人千面”推荐11。例如：用户兴趣变化时，只需在行为序列张量中追加新时间步的数据，模型可实时更新推荐结果1011。

2025-06-05 11:35:56 392

原创深度学习在非线性场景中的核心应用领域及向量/张量数据处理案例，结合工业、金融等领域的实际落地场景分析

‌非线性建模不可替代性‌工业缺陷形态、市场动态、生物信号等复杂模式无法用线性方程描述310‌高维张量处理优势‌图像/点云/频谱等天然高维数据需张量结构存储，深度学习可分层提取非线性特征1112‌激活函数的核心作用‌ReLU/ GELU 等函数赋予模型分层次拟合复杂决策边界的能力38例如晶圆检测中，单个像素缺陷需联合周围100×100区域非线性特征（如纹理渐变、边缘突变）才能准确判定，此时CNN的多层非线性激活远优于线性分类器1011。

2025-06-05 11:31:16 939

原创大模型RNN

RNN 的核心作用是。

2025-06-05 02:07:10 633

原创汽车停车匹配充电桩随机森林

self.colors = plt.colormaps['tab20'].colors[:num_piles] # 取前20种颜色。self.pile_coords[:, 1], self.pile_coords[:, 0], # 经度为X轴，纬度为Y轴。plt.title(f'3000辆汽车匹配{self.num_piles}个充电桩', fontsize=14, pad=20)matcher = ChargingPileMatcher(num_piles=20) # 设置为20个充电桩。

2025-06-04 17:59:33 433

原创 3000台车匹配100个充电桩

plt.title(f'车辆与充电桩匹配结果（{self.num_piles}个充电桩，{len(self.vehicle_coords)}辆车）')self.pile_coords[:, 1], self.pile_coords[:, 0], # 经度为x，纬度为y。cmap = plt.cm.get_cmap('tab20b', num_piles) # 使用可扩展的Colormap。c=self.colors, marker='*', s=200, label='充电桩', zorder=2。

2025-06-04 17:58:19 359

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

《软件实习1》实验任务书.docx

centos上mysql5.7配置.txt

[2012年国赛MATLAB创新奖A题]桂林理工大学-葡萄酒的评价.doc

习题和实验指导解答（查找）9.pdf

【CentOS】在Centos7 下无图形界面安装 Oracle11g - 趴着睡大觉 - 博客园.html

[2007国赛D题特等奖]体能测试时间安排-崔国富-刘贺-郝鹏志.pdf

oracle安装.rar

PLSQL Developer安装.pdf

2019-51MCM-Problem A (English).docx

学生学籍管理系统.cpp

JAVA环境配置流程

实验五 求二叉树叶子,高度及哈夫曼树.doc

有向图邻接表基本代码.rar

03.国赛辅导：数学规划模型.vep

《软件实习1》实践教学大纲.docx

18数据结构学校本科课程考试试卷模板(A)-评分标准和参考答案.pdf

空空如也

实验五求二叉树叶子,高度及哈夫曼树.doc