自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(283)
  • 资源 (16)
  • 收藏
  • 关注

原创 BERT 模型微调与传统机器学习的对比

BERT 微调入门示例,展示了如何将预训练语言模型应用于特定的分类任务。随着 Transformer 架构的普及,这种方法已经成为 NLP 任务的主流解决方案。

2025-06-11 10:29:58 356

原创 传统机器学习与大模型 + Prompt 的对比示例

下面两段代码分别展示了传统机器学习和大模型 + Prompt 在文本分类任务上的实现方式,帮助你直观感受两者的差异。

2025-06-11 10:21:22 457

原创 对话机器人预测场景与 Prompt / 模型选择指南

通过结合场景特性动态调整 Prompt 设计与模型选择,可最大化对话机器人的响应质量与效率。

2025-06-11 10:01:06 305

原创 意图分类策略选择:小模型微调 vs 大模型 Prompt

在处理意图分类任务时,选择「大模型 Prompt」还是「小模型微调」确实取决于意图类别的数量和数据规模。我来详细解释这个决策逻辑,并提供具体实现方案。实际应用中,建议先从大模型 Prompt 快速验证,随着意图数量和数据量增长,逐步过渡到混合架构或纯小模型方案。

2025-06-10 22:15:44 265

原创 深度学习聊天机器人 需要考虑

优秀的聊天机器人需要 “数据 + 模型 + 策略 + 工程” 的协同优化。对于小规模数据场景,需优先解决数据质量和参数效率问题;而大规模应用则需兼顾泛化性、知识准确性和用户体验。通过持续迭代和多维度优化,逐步提升模型在流畅性、逻辑性、知识性和可控性上的表现。

2025-06-10 22:01:50 863

原创 RNN做中文分词

结合 RNN 的输出和 CRF 的转移矩阵,使用维特比算法(Viterbi Algorithm)找到最优标签序列。中文与英文不同,词与词之间没有空格分隔。分词就是要在连续的字符流中找出正确的词边界。在中文分词中,每个字符的标签不仅取决于自身,还与前后文相关。RNN 直接预测每个字符的标签时,会忽略标签之间的约束关系(如。普通 RNN 只能看到左侧上下文(从左到右),而中文分词需要。依次处理序列中的每个元素,并维护一个。循环神经网络(RNN)的核心优势是。是标签数量,如 4),其中。最常用的分词标注方案是。

2025-06-10 15:00:00 720

原创 中文分词双向匹配

(Bidirectional Maximum Matching)是正向最大匹配(FMM)和逆向最大匹配(RMM)的结合,通过比较两种匹配结果选择最优切分。

2025-06-09 19:34:17 280

原创 rnn判断string中第一次出现a的下标

问题:原模型仅使用最后一个时间步的隐藏状态,忽略中间时间步的信息。改进:对 RNN 的所有时间步输出取平均或池化,获取更全面的特征。代码调整python运行# 平均池化:对所有时间步取平均# ...五、完整优化后代码(关键部分)python运行dropout=0.2 # 层间Dropout# 平均池化替代仅取最后隐藏状态else:# 训练配置优化epoch_num = 50 # 增加训练轮数batch_size = 32 # 增大批量大小。

2025-06-09 11:33:44 1062

原创 conda相比python好处

Conda 通过整合环境管理、依赖解析和跨平台支持,显著降低了复杂项目的配置成本,尤其适合团队协作和长期维护的工程化项目。+ 虚拟环境)有许多独特优势,尤其在多项目管理、依赖处理和跨平台兼容性等方面表现更优。Conda 作为 Python 的环境和包管理工具,相比原生 Python 生态(如。

2025-06-09 06:24:36 880

原创 拉力测试cuda pytorch 把 4070显卡拉满

print(f"已运行 {elapsed:.1f}s / {duration}s,迭代次数: {iterations}")print(f"使用GPU: {torch.cuda.get_device_name(device)}")print(f"正在创建 {matrix_size}x{matrix_size} 的矩阵...")print(f"平均每秒迭代: {iterations / elapsed:.2f}")print(f"总运行时间: {elapsed:.2f} 秒")print("测试被用户中断")

2025-06-09 06:12:55 541 1

原创 cuda gpu版本效率

print(f"当前 CUDA 设备: {torch.cuda.get_device_name(0)}")print(f"可用 CUDA 设备数量: {torch.cuda.device_count()}")print(f"CUDA 可用: {torch.cuda.is_available()}")print(f"GPU 加速比: {cpu_time/gpu_time:.2f}x")print(f"GPU 计算耗时: {gpu_time:.4f} 秒")# 在 GPU 上创建随机矩阵。

2025-06-09 06:11:10 353

原创 TF IDF使用场景

TF-IDF(词频 - 逆文档频率 )是文本挖掘与信息检索领域经典加权技术,核心用于评估词语对文档的重要性,常见使用场景如下:

2025-06-08 15:35:54 177

原创 新词发现 词分完可以做什么

新词发现在完成分词后,可以进一步应用于多个领域,帮助挖掘文本数据中的价值、提升自然语言处理任务的效果。通过以上应用,新词发现不仅能提升 NLP 任务的基础能力,还能为各行业提供数据驱动的决策支持,是文本数据价值挖掘的重要环节。

2025-06-08 14:49:58 696

原创 jieba实现和用RNN实现中文分词的区别

二者并非替代关系,实际应用中常结合使用(如用 Jieba 生成初始结果,再用 RNN 优化)。选择哪种方法取决于具体场景的。,而 RNN 分词体现了。

2025-06-08 11:27:08 1022

原创 手动给中文分词和 直接用神经网络RNN做有什么区别

你的代码使用 RNN 实现分词,正是利用了神经网络在上下文建模和自动特征提取上的优势,尤其适合处理未登录词和复杂语义场景。而神经网络分词更适合。

2025-06-08 11:18:00 582

原创 hugging face 用现成的翻译模型 离线做中英翻译

result = translation('我喜欢学习数据科学和机器学习。我让热爱英语 很喜欢学大数据相关的工作 也做了好几年 擅长写hive spark', max_length=400)model_path = './local_model' # 之前保存的本地路径。save_dir = './local_model' # 本地存储路径。print(f"模型和分词器已保存到 {save_dir}")# 从本地加载模型和分词器。# 下载并保存分词器。

2025-06-08 03:21:27 396

原创 多标签多分类 用什么函数激活

在多标签多分类任务中,激活函数的选择需要根据任务特性和输出层的设计来决定。通过合理选择激活函数和损失函数,可高效解决多标签分类问题。

2025-06-08 02:19:27 718

原创 隐藏层为什么用relu

输出层需根据任务选择激活函数(如分类用 Softmax/Sigmoid,回归用线性 / ReLU),隐藏层的 ReLU 不可直接用于输出。在深度学习中,隐藏层广泛使用 ReLU(Rectified Linear Unit,修正线性单元)作为激活函数,主要因其在。若输入均值为负,大量神经元会静默,需配合合适的初始化(如 He 初始化,针对 ReLU 设计,使输入方差为正)。:ReLU 用 “简单暴力” 的方式解决了梯度消失难题,让深层网络训练成为可能,是现代深度学习的重要基石之一。等方面具有显著优势。

2025-06-08 02:06:58 814

原创 sigmoid和softmax对比

导数 \(\sigma'(x) = \sigma(x)(1-\sigma(x))\),在输入远离 0 时(如\(x > 4\)或\(x < -4\)),梯度接近 0,易导致。例如:输入\(2, 1, 0\) → Softmax 输出\(0.7, 0.2, 0.1\)。: 梯度计算涉及所有输入值,公式较复杂。但结合交叉熵损失后,梯度表达式简化为 \(\text{输出值} - \text{真实标签}\),训练更稳定。将整个实数轴压缩到 (0, 1) 区间,中间区域变化陡峭,两端趋于饱和。

2025-06-08 02:01:32 772

原创 权重 w 和 偏置 b

4D 张量 形状为 \((\text{输出通道数}, \text{输入通道数}, \text{卷积核高}, \text{卷积核宽})\)。例如:3 通道输入,16 通道输出,卷积核 \(3 \times 3\),则 w 形状为 \((16, 3, 3, 3)\)。形状为 \((\text{输入维度}, \text{输出维度})\)。形状为 \((\text{输出维度},)\)。:向量 形状为 \((\text{输出通道数},)\),即每个输出通道对应一个偏置。的形态取决于具体的层类型和数据维度。

2025-06-08 01:50:57 275

原创 深度学习 w b

在深度学习中,权重 w 和 偏置 b 是神经网络的核心参数,它们的形态(shape)取决于网络结构和数据维度。以下是关于 w 和 b 的详细解析:权重 w: 连接神经元之间的强度,决定输入信号的重要性。偏置 b: 调整神经元激活函数的阈值,增加模型的灵活性。假设:假设一个 3 层神经网络:python运行 偏置 \(b_1\): 形状为 \((3,)\),即: python运行 第二层(隐藏→输出) 权重 \(w_2\): 形状为 \((3, 1)\),即: python运行

2025-06-08 01:49:35 547

原创 神经网络 隐藏层

从浅网络开始,逐步加深,同时关注验证集性能和训练速度。现代框架(如 PyTorch、TensorFlow)支持动态调整架构,便于实验不同层数的效果。神经网络中隐藏层的数量是一个超参数,其选择取决于任务复杂度、数据规模和计算资源。

2025-06-08 01:43:32 464

原创 神经元激活函数在神经网络里起着关键作用

激活函数是神经网络的重要组成部分,它赋予了网络非线性表达能力,使网络能够学习复杂的模式。在实际应用中,要根据具体任务和模型架构来选择合适的激活函数,同时注意梯度消失等潜在问题。理解激活函数的原理和特性,有助于更高效地构建和训练神经网络。

2025-06-08 01:41:26 468

原创 大模型与 NLP、Transformer 架构

大模型中的 Transformer 并非 “原始版本”,而是经过大量工程优化的变体,例如:

2025-06-06 19:51:06 1162

原创 豆包和deepseek 元宝 百度ai区别是什么

豆包、DeepSeek、元宝和百度 AI 有以下区别:

2025-06-06 19:44:25 1403

原创 mamba架构和transformer区别

Mamba 架构和 Transformer 架构存在多方面的区别,具体如下:

2025-06-06 19:43:55 361

原创 类Transformer架构

Transformer 自 2017 年提出后,在自然语言处理(NLP)、计算机视觉(CV)、语音识别等领域引发了范式转变。除了原始 Transformer,以下是一些成熟且广泛应用的 类 Transformer 架构 及其核心改进:python运行 python运行 2. Swin Transformer(2021) 改进: 层次化结构:通过移动窗口(Shifted Window)降低计算复杂度,支持多尺度特征提取。 应用:目标检测、语义分割(如 COCO 数据集 SO

2025-06-06 19:38:38 703

原创 cnn卷积神经变体

CNN(卷积神经网络)在计算机视觉领域取得了巨大成功,其变体主要围绕结构优化、计算效率、多尺度特征融合和注意力机制展开。以下是常见的 CNN 变体及其核心改进点:python运行总结 图像分类:优先考虑 ResNet、EfficientNet 或 ConvNeXt。 移动端部署:选择 MobileNetV3、ShuffleNetV2。 需注意力机制:在基础架构中插入 SE 或 CBAM 模块。 多尺度任务:使用 Inception 或 HRNet。选择时需权衡模型精度、计算复杂度和部

2025-06-06 19:35:39 630

原创 sklearn 和 pytorch tensorflow什么关系

在实际项目中,三者常结合使用(如 Scikit-learn 预处理 + PyTorch 训练模型 + TensorFlow 部署),形成完整的机器学习 pipeline。

2025-06-06 19:18:45 788

原创 transformer和 RNN以及他的几个变体区别 改进

Transformer、RNN 及其变体(LSTM/GRU)是深度学习中处理序列数据的核心模型,但它们的架构设计和应用场景有显著差异。以下从技术原理、优缺点和适用场景三个维度进行对比分析:plaintext (其中 σ 为 sigmoid 函数,⊙为逐元素乘法) GRU:将遗忘门和输入门合并为更新门,减少参数约 30%,计算效率更高。 2. LSTM/GRU → Transformer:抛弃循环,引入注意力 问题:LSTM/GRU 仍需按顺序处理序列,无法并行计算,长序列处

2025-06-06 19:14:47 1118

原创 RNN和CNN使用场景区别

RNN(循环神经网络)和 CNN(卷积神经网络)是深度学习中两种核心架构,它们的使用场景主要取决于数据结构和任务需求。

2025-06-06 19:09:24 1066

原创 循环神经网络(RNN)

循环神经网络(RNN)的变体主要是为了解决传统 RNN 在处理长序列时的梯度消失 / 爆炸问题,以及提升模型对序列特征的捕捉能力。

2025-06-06 19:06:21 534

原创 在NLP文本处理中,将字符映射到阿拉伯数字(构建词汇表vocab)的核心目的和意义

‌:字符到数字的映射是NLP数据预处理的核心步骤,实现了文本的标准化、数值化和批量化处理,为后续模型计算奠定基础。

2025-06-05 11:48:52 300

原创 查看本机显卡信息

macOS: 使用 system_profiler 命令。print(f"不支持的操作系统: {system}")# Windows: 使用 wmic 命令。# Linux: 使用 lspci 命令。print(f"获取显卡信息失败: {e}")print("显卡信息:")print("显卡信息:")print("显卡信息:")

2025-06-05 11:43:07 242

原创 GPU加速与非加速的深度学习张量计算对比Demo,使用PyTorch展示关键差异

print(f"加速比: {cpu_time/gpu_time:.1f}倍")torch.cuda.synchronize() # 确保GPU计时准确。print(f"CPU计算时间: {cpu_time:.4f}秒")print(f"GPU计算时间: {gpu_time:.4f}秒")x_gpu = x_cpu.cuda() # 转移到GPU。# 创建大型随机张量 (10000x10000)

2025-06-05 11:37:31 356

原创 深度学习张量

通过张量组织百维特征,结合深度学习模型(如Wide & Deep),可实现精准的“千人千面”推荐11。例如:用户兴趣变化时,只需在行为序列张量中追加新时间步的数据,模型可实时更新推荐结果1011。

2025-06-05 11:35:56 392

原创 深度学习在非线性场景中的核心应用领域及向量/张量数据处理案例,结合工业、金融等领域的实际落地场景分析

‌非线性建模不可替代性‌工业缺陷形态、市场动态、生物信号等复杂模式无法用线性方程描述310‌高维张量处理优势‌图像/点云/频谱等天然高维数据需张量结构存储,深度学习可分层提取非线性特征1112‌激活函数的核心作用‌ReLU/ GELU 等函数赋予模型分层次拟合复杂决策边界的能力38例如晶圆检测中,单个像素缺陷需联合周围100×100区域非线性特征(如纹理渐变、边缘突变)才能准确判定,此时CNN的多层非线性激活远优于线性分类器1011。

2025-06-05 11:31:16 939

原创 大模型RNN

RNN 的核心作用是。

2025-06-05 02:07:10 633

原创 汽车停车匹配充电桩随机森林

self.colors = plt.colormaps['tab20'].colors[:num_piles] # 取前20种颜色。self.pile_coords[:, 1], self.pile_coords[:, 0], # 经度为X轴,纬度为Y轴。plt.title(f'3000辆汽车匹配{self.num_piles}个充电桩', fontsize=14, pad=20)matcher = ChargingPileMatcher(num_piles=20) # 设置为20个充电桩。

2025-06-04 17:59:33 433

原创 3000台车匹配100个充电桩

plt.title(f'车辆与充电桩匹配结果({self.num_piles}个充电桩,{len(self.vehicle_coords)}辆车)')self.pile_coords[:, 1], self.pile_coords[:, 0], # 经度为x,纬度为y。cmap = plt.cm.get_cmap('tab20b', num_piles) # 使用可扩展的Colormap。c=self.colors, marker='*', s=200, label='充电桩', zorder=2。

2025-06-04 17:58:19 359

《软件实习1》实验任务书.docx

《软件实习1》实验任务书

2019-07-12

centos上mysql5.7配置.txt

centos上mysql5.7配置.txt

2021-08-11

[2012年国赛MATLAB创新奖A题]桂林理工大学-葡萄酒的评价.doc

[2012年国赛MATLAB创新奖A题]桂林理工大学-葡萄酒的评价

2019-07-12

习题和实验指导解答(查找)9.pdf

习题和实验指导解答(查找)9 第 9 章习题、思考题、上机题解答

2019-07-12

【CentOS】在Centos7 下无图形界面安装 Oracle11g - 趴着睡大觉 - 博客园.html

anz

2021-08-11

[2007国赛D题特等奖]体能测试时间安排-崔国富-刘贺-郝鹏志.pdf

[2007国赛D题特等奖]体能测试时间安排-崔国富-刘贺-郝鹏志

2019-07-12

oracle安装.rar

oracle安装.rar

2021-08-13

PLSQL Developer安装.pdf

PLSQL Developer安装

2021-08-11

2019-51MCM-Problem A (English).docx

2019-51MCM-Problem A (English)

2019-07-12

学生学籍管理系统.cpp

学生学籍管理系统

2019-07-12

JAVA环境配置流程

JAVA环境配置流程

2018-10-06

实验五 求二叉树叶子,高度及哈夫曼树.doc

实验五 求二叉树叶子,高度及哈夫曼树

2019-07-12

有向图邻接表基本代码.rar

有向图邻接表基本代码

2019-07-12

03.国赛辅导:数学规划模型.vep

03.国赛辅导:数学规划模型03.国赛辅导:数学规划模型03.国赛辅导:数学规划模型03.国赛辅导:数学规划模型03.国赛辅导:数学规划模型03.国赛辅导:数学规划模型03.国赛辅导:数学规划模型03.国赛辅导:数学规划模型03.国赛辅导:数学规划模型03.国赛辅导:数学规划模型03.国赛辅导:数学规划模型03.国赛辅导:数学规划模型

2019-07-12

《软件实习1》实践教学大纲.docx

《软件实习1》实践教学大纲

2019-07-12

18数据结构学校本科课程考试试卷模板(A)-评分标准和参考答案.pdf

18数据结构学校本科课程考试试卷模板(A)-评分标准和参考答案

2019-07-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除