- 博客(283)
- 资源 (16)
- 收藏
- 关注
原创 BERT 模型微调与传统机器学习的对比
BERT 微调入门示例,展示了如何将预训练语言模型应用于特定的分类任务。随着 Transformer 架构的普及,这种方法已经成为 NLP 任务的主流解决方案。
2025-06-11 10:29:58
356
原创 传统机器学习与大模型 + Prompt 的对比示例
下面两段代码分别展示了传统机器学习和大模型 + Prompt 在文本分类任务上的实现方式,帮助你直观感受两者的差异。
2025-06-11 10:21:22
457
原创 对话机器人预测场景与 Prompt / 模型选择指南
通过结合场景特性动态调整 Prompt 设计与模型选择,可最大化对话机器人的响应质量与效率。
2025-06-11 10:01:06
305
原创 意图分类策略选择:小模型微调 vs 大模型 Prompt
在处理意图分类任务时,选择「大模型 Prompt」还是「小模型微调」确实取决于意图类别的数量和数据规模。我来详细解释这个决策逻辑,并提供具体实现方案。实际应用中,建议先从大模型 Prompt 快速验证,随着意图数量和数据量增长,逐步过渡到混合架构或纯小模型方案。
2025-06-10 22:15:44
265
原创 深度学习聊天机器人 需要考虑
优秀的聊天机器人需要 “数据 + 模型 + 策略 + 工程” 的协同优化。对于小规模数据场景,需优先解决数据质量和参数效率问题;而大规模应用则需兼顾泛化性、知识准确性和用户体验。通过持续迭代和多维度优化,逐步提升模型在流畅性、逻辑性、知识性和可控性上的表现。
2025-06-10 22:01:50
863
原创 RNN做中文分词
结合 RNN 的输出和 CRF 的转移矩阵,使用维特比算法(Viterbi Algorithm)找到最优标签序列。中文与英文不同,词与词之间没有空格分隔。分词就是要在连续的字符流中找出正确的词边界。在中文分词中,每个字符的标签不仅取决于自身,还与前后文相关。RNN 直接预测每个字符的标签时,会忽略标签之间的约束关系(如。普通 RNN 只能看到左侧上下文(从左到右),而中文分词需要。依次处理序列中的每个元素,并维护一个。循环神经网络(RNN)的核心优势是。是标签数量,如 4),其中。最常用的分词标注方案是。
2025-06-10 15:00:00
720
原创 中文分词双向匹配
(Bidirectional Maximum Matching)是正向最大匹配(FMM)和逆向最大匹配(RMM)的结合,通过比较两种匹配结果选择最优切分。
2025-06-09 19:34:17
280
原创 rnn判断string中第一次出现a的下标
问题:原模型仅使用最后一个时间步的隐藏状态,忽略中间时间步的信息。改进:对 RNN 的所有时间步输出取平均或池化,获取更全面的特征。代码调整python运行# 平均池化:对所有时间步取平均# ...五、完整优化后代码(关键部分)python运行dropout=0.2 # 层间Dropout# 平均池化替代仅取最后隐藏状态else:# 训练配置优化epoch_num = 50 # 增加训练轮数batch_size = 32 # 增大批量大小。
2025-06-09 11:33:44
1062
原创 conda相比python好处
Conda 通过整合环境管理、依赖解析和跨平台支持,显著降低了复杂项目的配置成本,尤其适合团队协作和长期维护的工程化项目。+ 虚拟环境)有许多独特优势,尤其在多项目管理、依赖处理和跨平台兼容性等方面表现更优。Conda 作为 Python 的环境和包管理工具,相比原生 Python 生态(如。
2025-06-09 06:24:36
880
原创 拉力测试cuda pytorch 把 4070显卡拉满
print(f"已运行 {elapsed:.1f}s / {duration}s,迭代次数: {iterations}")print(f"使用GPU: {torch.cuda.get_device_name(device)}")print(f"正在创建 {matrix_size}x{matrix_size} 的矩阵...")print(f"平均每秒迭代: {iterations / elapsed:.2f}")print(f"总运行时间: {elapsed:.2f} 秒")print("测试被用户中断")
2025-06-09 06:12:55
541
1
原创 cuda gpu版本效率
print(f"当前 CUDA 设备: {torch.cuda.get_device_name(0)}")print(f"可用 CUDA 设备数量: {torch.cuda.device_count()}")print(f"CUDA 可用: {torch.cuda.is_available()}")print(f"GPU 加速比: {cpu_time/gpu_time:.2f}x")print(f"GPU 计算耗时: {gpu_time:.4f} 秒")# 在 GPU 上创建随机矩阵。
2025-06-09 06:11:10
353
原创 TF IDF使用场景
TF-IDF(词频 - 逆文档频率 )是文本挖掘与信息检索领域经典加权技术,核心用于评估词语对文档的重要性,常见使用场景如下:
2025-06-08 15:35:54
177
原创 新词发现 词分完可以做什么
新词发现在完成分词后,可以进一步应用于多个领域,帮助挖掘文本数据中的价值、提升自然语言处理任务的效果。通过以上应用,新词发现不仅能提升 NLP 任务的基础能力,还能为各行业提供数据驱动的决策支持,是文本数据价值挖掘的重要环节。
2025-06-08 14:49:58
696
原创 jieba实现和用RNN实现中文分词的区别
二者并非替代关系,实际应用中常结合使用(如用 Jieba 生成初始结果,再用 RNN 优化)。选择哪种方法取决于具体场景的。,而 RNN 分词体现了。
2025-06-08 11:27:08
1022
原创 手动给中文分词和 直接用神经网络RNN做有什么区别
你的代码使用 RNN 实现分词,正是利用了神经网络在上下文建模和自动特征提取上的优势,尤其适合处理未登录词和复杂语义场景。而神经网络分词更适合。
2025-06-08 11:18:00
582
原创 hugging face 用现成的翻译模型 离线做中英翻译
result = translation('我喜欢学习数据科学和机器学习。我让热爱英语 很喜欢学大数据相关的工作 也做了好几年 擅长写hive spark', max_length=400)model_path = './local_model' # 之前保存的本地路径。save_dir = './local_model' # 本地存储路径。print(f"模型和分词器已保存到 {save_dir}")# 从本地加载模型和分词器。# 下载并保存分词器。
2025-06-08 03:21:27
396
原创 多标签多分类 用什么函数激活
在多标签多分类任务中,激活函数的选择需要根据任务特性和输出层的设计来决定。通过合理选择激活函数和损失函数,可高效解决多标签分类问题。
2025-06-08 02:19:27
718
原创 隐藏层为什么用relu
输出层需根据任务选择激活函数(如分类用 Softmax/Sigmoid,回归用线性 / ReLU),隐藏层的 ReLU 不可直接用于输出。在深度学习中,隐藏层广泛使用 ReLU(Rectified Linear Unit,修正线性单元)作为激活函数,主要因其在。若输入均值为负,大量神经元会静默,需配合合适的初始化(如 He 初始化,针对 ReLU 设计,使输入方差为正)。:ReLU 用 “简单暴力” 的方式解决了梯度消失难题,让深层网络训练成为可能,是现代深度学习的重要基石之一。等方面具有显著优势。
2025-06-08 02:06:58
814
原创 sigmoid和softmax对比
导数 \(\sigma'(x) = \sigma(x)(1-\sigma(x))\),在输入远离 0 时(如\(x > 4\)或\(x < -4\)),梯度接近 0,易导致。例如:输入\(2, 1, 0\) → Softmax 输出\(0.7, 0.2, 0.1\)。: 梯度计算涉及所有输入值,公式较复杂。但结合交叉熵损失后,梯度表达式简化为 \(\text{输出值} - \text{真实标签}\),训练更稳定。将整个实数轴压缩到 (0, 1) 区间,中间区域变化陡峭,两端趋于饱和。
2025-06-08 02:01:32
772
原创 权重 w 和 偏置 b
4D 张量 形状为 \((\text{输出通道数}, \text{输入通道数}, \text{卷积核高}, \text{卷积核宽})\)。例如:3 通道输入,16 通道输出,卷积核 \(3 \times 3\),则 w 形状为 \((16, 3, 3, 3)\)。形状为 \((\text{输入维度}, \text{输出维度})\)。形状为 \((\text{输出维度},)\)。:向量 形状为 \((\text{输出通道数},)\),即每个输出通道对应一个偏置。的形态取决于具体的层类型和数据维度。
2025-06-08 01:50:57
275
原创 深度学习 w b
在深度学习中,权重 w 和 偏置 b 是神经网络的核心参数,它们的形态(shape)取决于网络结构和数据维度。以下是关于 w 和 b 的详细解析:权重 w: 连接神经元之间的强度,决定输入信号的重要性。偏置 b: 调整神经元激活函数的阈值,增加模型的灵活性。假设:假设一个 3 层神经网络:python运行 偏置 \(b_1\): 形状为 \((3,)\),即: python运行 第二层(隐藏→输出) 权重 \(w_2\): 形状为 \((3, 1)\),即: python运行
2025-06-08 01:49:35
547
原创 神经网络 隐藏层
从浅网络开始,逐步加深,同时关注验证集性能和训练速度。现代框架(如 PyTorch、TensorFlow)支持动态调整架构,便于实验不同层数的效果。神经网络中隐藏层的数量是一个超参数,其选择取决于任务复杂度、数据规模和计算资源。
2025-06-08 01:43:32
464
原创 神经元激活函数在神经网络里起着关键作用
激活函数是神经网络的重要组成部分,它赋予了网络非线性表达能力,使网络能够学习复杂的模式。在实际应用中,要根据具体任务和模型架构来选择合适的激活函数,同时注意梯度消失等潜在问题。理解激活函数的原理和特性,有助于更高效地构建和训练神经网络。
2025-06-08 01:41:26
468
原创 类Transformer架构
Transformer 自 2017 年提出后,在自然语言处理(NLP)、计算机视觉(CV)、语音识别等领域引发了范式转变。除了原始 Transformer,以下是一些成熟且广泛应用的 类 Transformer 架构 及其核心改进:python运行 python运行 2. Swin Transformer(2021) 改进: 层次化结构:通过移动窗口(Shifted Window)降低计算复杂度,支持多尺度特征提取。 应用:目标检测、语义分割(如 COCO 数据集 SO
2025-06-06 19:38:38
703
原创 cnn卷积神经变体
CNN(卷积神经网络)在计算机视觉领域取得了巨大成功,其变体主要围绕结构优化、计算效率、多尺度特征融合和注意力机制展开。以下是常见的 CNN 变体及其核心改进点:python运行总结 图像分类:优先考虑 ResNet、EfficientNet 或 ConvNeXt。 移动端部署:选择 MobileNetV3、ShuffleNetV2。 需注意力机制:在基础架构中插入 SE 或 CBAM 模块。 多尺度任务:使用 Inception 或 HRNet。选择时需权衡模型精度、计算复杂度和部
2025-06-06 19:35:39
630
原创 sklearn 和 pytorch tensorflow什么关系
在实际项目中,三者常结合使用(如 Scikit-learn 预处理 + PyTorch 训练模型 + TensorFlow 部署),形成完整的机器学习 pipeline。
2025-06-06 19:18:45
788
原创 transformer和 RNN以及他的几个变体区别 改进
Transformer、RNN 及其变体(LSTM/GRU)是深度学习中处理序列数据的核心模型,但它们的架构设计和应用场景有显著差异。以下从技术原理、优缺点和适用场景三个维度进行对比分析:plaintext (其中 σ 为 sigmoid 函数,⊙为逐元素乘法) GRU:将遗忘门和输入门合并为更新门,减少参数约 30%,计算效率更高。 2. LSTM/GRU → Transformer:抛弃循环,引入注意力 问题:LSTM/GRU 仍需按顺序处理序列,无法并行计算,长序列处
2025-06-06 19:14:47
1118
原创 RNN和CNN使用场景区别
RNN(循环神经网络)和 CNN(卷积神经网络)是深度学习中两种核心架构,它们的使用场景主要取决于数据结构和任务需求。
2025-06-06 19:09:24
1066
原创 循环神经网络(RNN)
循环神经网络(RNN)的变体主要是为了解决传统 RNN 在处理长序列时的梯度消失 / 爆炸问题,以及提升模型对序列特征的捕捉能力。
2025-06-06 19:06:21
534
原创 在NLP文本处理中,将字符映射到阿拉伯数字(构建词汇表vocab)的核心目的和意义
:字符到数字的映射是NLP数据预处理的核心步骤,实现了文本的标准化、数值化和批量化处理,为后续模型计算奠定基础。
2025-06-05 11:48:52
300
原创 查看本机显卡信息
macOS: 使用 system_profiler 命令。print(f"不支持的操作系统: {system}")# Windows: 使用 wmic 命令。# Linux: 使用 lspci 命令。print(f"获取显卡信息失败: {e}")print("显卡信息:")print("显卡信息:")print("显卡信息:")
2025-06-05 11:43:07
242
原创 GPU加速与非加速的深度学习张量计算对比Demo,使用PyTorch展示关键差异
print(f"加速比: {cpu_time/gpu_time:.1f}倍")torch.cuda.synchronize() # 确保GPU计时准确。print(f"CPU计算时间: {cpu_time:.4f}秒")print(f"GPU计算时间: {gpu_time:.4f}秒")x_gpu = x_cpu.cuda() # 转移到GPU。# 创建大型随机张量 (10000x10000)
2025-06-05 11:37:31
356
原创 深度学习张量
通过张量组织百维特征,结合深度学习模型(如Wide & Deep),可实现精准的“千人千面”推荐11。例如:用户兴趣变化时,只需在行为序列张量中追加新时间步的数据,模型可实时更新推荐结果1011。
2025-06-05 11:35:56
392
原创 深度学习在非线性场景中的核心应用领域及向量/张量数据处理案例,结合工业、金融等领域的实际落地场景分析
非线性建模不可替代性工业缺陷形态、市场动态、生物信号等复杂模式无法用线性方程描述310高维张量处理优势图像/点云/频谱等天然高维数据需张量结构存储,深度学习可分层提取非线性特征1112激活函数的核心作用ReLU/ GELU 等函数赋予模型分层次拟合复杂决策边界的能力38例如晶圆检测中,单个像素缺陷需联合周围100×100区域非线性特征(如纹理渐变、边缘突变)才能准确判定,此时CNN的多层非线性激活远优于线性分类器1011。
2025-06-05 11:31:16
939
原创 汽车停车匹配充电桩随机森林
self.colors = plt.colormaps['tab20'].colors[:num_piles] # 取前20种颜色。self.pile_coords[:, 1], self.pile_coords[:, 0], # 经度为X轴,纬度为Y轴。plt.title(f'3000辆汽车匹配{self.num_piles}个充电桩', fontsize=14, pad=20)matcher = ChargingPileMatcher(num_piles=20) # 设置为20个充电桩。
2025-06-04 17:59:33
433
原创 3000台车匹配100个充电桩
plt.title(f'车辆与充电桩匹配结果({self.num_piles}个充电桩,{len(self.vehicle_coords)}辆车)')self.pile_coords[:, 1], self.pile_coords[:, 0], # 经度为x,纬度为y。cmap = plt.cm.get_cmap('tab20b', num_piles) # 使用可扩展的Colormap。c=self.colors, marker='*', s=200, label='充电桩', zorder=2。
2025-06-04 17:58:19
359
03.国赛辅导:数学规划模型.vep
2019-07-12
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人