自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

人工智能(AI)技术,大模型技术,深度学习,机器学习,计算机视觉,AI工具实践应用等分享

任何疑问欢迎交流探讨,也可以直接与我联系,非常欢迎!

  • 博客(741)
  • 资源 (13)
  • 收藏
  • 关注

原创 【深度学习解惑】结合神经网络结构剪枝或知识蒸馏,能否把 Inception 精剪到 mobile‑friendly 仍保持精度?

结合神经网络结构剪枝或知识蒸馏,能否把 Inception 精剪到 mobile‑friendly 仍保持精度?

2025-06-11 14:48:03 447

原创 【深度学习解惑】在少样本(Few‑Shot)场景下,Inception 的多尺度特征会不会天然有优势?如何验证?

在少样本(Few‑Shot)场景下,Inception 的多尺度特征会不会天然有优势?如何验证?

2025-06-11 13:15:28 749

原创 【深度学习解惑】NAS(神经架构搜索)是否能自动发现 Inception 类似的多分支结构?已有哪些工作验证?

NAS(神经架构搜索)是否能自动发现 Inception 类似的多分支结构?已有哪些工作验证?

2025-06-10 21:10:17 790

原创 【深度学习解惑】如何将自注意力(Self‑Attention/Transformer Block)嵌入 Inception,是否仍需并行多尺度?

如何将自注意力(Self‑Attention/Transformer Block)嵌入 Inception,是否仍需并行多尺度?

2025-06-10 21:00:59 456

原创 【深度学习解惑】为了缩短推理时延,可以把 1×1+3×3 并行改写成分组卷积吗?有何利弊?

为了缩短推理时延,可以把 1×1+3×3 并行改写成分组卷积吗?有何利弊?

2025-06-07 10:52:01 775

原创 【深度学习解惑】Inception‑based 特征在检索/检测任务里常用作 backbone,和 ResNet backbone 调整 anchor/grid 时要注意什么?

Inception‑based 特征在检索/检测任务里常用作 backbone,和 ResNet backbone 调整 anchor/grid 时要注意什么?

2025-06-07 10:48:39 802

原创 【深度学习解惑】 在 PyTorch 中 DataParallel vs. DistributedDataParallel 对 Inception 有哪些细节坑?

在Inception架构中,DDP相比DP具有显著的性能优势和技术合理性。实验表明,通过适当的同步批归一化和通信优化,DDP可实现近线性的扩展效率。建议后续研究关注动态图结构下的自适应并行策略,以进一步提升复杂网络架构的训练效率。

2025-06-03 17:39:44 970

原创 【深度学习解惑】在 TensorFlow/Keras 中复现 Inception v1 时,怎样确认与原论文参数一一对应?

在 TensorFlow/Keras 中复现 Inception v1 时,怎样确认与原论文参数一一对应?

2025-06-03 17:36:56 342

原创 【深度学习解惑】如果要把 Inception 部署到移动端 TensorFlow Lite,应重点关注哪些算子?

如果要把 Inception 部署到移动端 TensorFlow Lite,应重点关注哪些算子?

2025-06-03 17:33:48 826

原创 【深度学习解惑】如何用 NetDissect/Network Slimming 判断,哪些 Inception 分支最可裁剪?

如何用 NetDissect/Network Slimming 判断,哪些 Inception 分支最可裁剪?

2025-05-29 17:50:43 641

原创 【深度学习解惑】 Inception网络如果发现某些类别被 5×5 分支高度激活而 3×3 分支几乎不激活,可能意味着什么?

Inception网络如果发现某些类别被 5×5 分支高度激活而 3×3 分支几乎不激活,可能意味着什么?

2025-05-29 17:45:46 638

原创 【深度学习解惑】Inception 并行分支是否能自然对齐“局部 vs. 全局”特征?用可视化举例说明

Inception 并行分支是否能自然对齐“局部 vs. 全局”特征?用可视化举例说明

2025-05-29 17:42:50 838

原创 【深度学习解惑】卷积神经网络在 1×1 卷积之前后分别做一次特征分布可视化,可以得到什么洞见?

卷积神经网络在 1×1 卷积之前后分别做一次特征分布可视化,可以得到什么洞见?

2025-05-26 07:55:53 949

原创 【深度学习解惑】使用 Grad‑CAM 可视化 Inception 输出热图时,应该选哪一支路的特征图?为什么?

使用 Grad‑CAM 可视化 Inception 输出热图时,应该选哪一支路的特征图?为什么?

2025-05-26 07:52:28 1269

原创 【深度学习解惑】EfficientNet 用复合缩放统一了网络深度、宽度、分辨率,与 Inception 的多尺度思想有何联系?

EfficientNet 用复合缩放统一了网络深度、宽度、分辨率,与 Inception 的多尺度思想有何联系?

2025-05-20 08:34:04 593

原创 【深度学习解惑】MobileNet‑V2 中的 inverted residual + depthwise 卷积是否可视为轻量化 Inception?为什么?

MobileNet‑V2 中的 inverted residual + depthwise 卷积是否可视为轻量化 Inception?为什么?

2025-05-20 08:21:52 634

原创 【深度学习解惑】Xception 把 3×3 可分离卷积分解为 depthwise + pointwise —— 这与 Inception 设计理念有何异同?

Xception 把 3×3 可分离卷积分解为 depthwise + pointwise —— 这与 Inception 设计理念有何异同?

2025-05-20 08:20:07 765

原创 【深度学习解惑】Inception‑V4 把残差引入模块有什么好处?与 ResNet 直接堆叠残差有什么本质差别?

Inception‑V4 把残差引入模块有什么好处?与 ResNet 直接堆叠残差有什么本质差别?

2025-05-18 22:32:24 754

原创 【深度学习解惑】简述 Inception v1 → v2/v3 → v4/xception 的三条演进主线,各自核心创新是什么?

简述 Inception v1 → v2/v3 → v4/xception 的三条演进主线,各自核心创新是什么?

2025-05-18 22:28:38 650

原创 【深度学习解惑】如果 GPU 计算资源非常有限,用 Inception v1 vs. ResNet‑50 哪个更合适,为什么?

在GPU计算资源受限的环境下,Inception v1展现出显著优势:显存占用减少65%训练速度提升2.4倍推理延迟降低58%建议开发者在显存小于12GB时优先考虑Inception v1架构,并通过模型压缩和量化技术进一步优化性能。

2025-05-16 07:49:08 757

原创 【深度学习解惑】将 Inception 与 Mixup/Label‑Smoothing 等正则手段结合时,需要对 auxiliary head 做哪些调整?

在 Inception 中结合 Mixup/Label-Smoothing 时,需确保主头与辅助头的标签分布、损失函数和梯度传播逻辑一致,并通过实验验证参数敏感性。代码实现需显式处理混合标签在辅助头的传播

2025-05-16 07:40:08 952

原创 【深度学习解惑】分析 Inception 特有的并行分支对显存占用、GPU 利用率的正负影响?

Inception架构通过并行分支设计实现了多尺度特征提取,显著提升了模型性能,但也带来了显存占用和GPU利用率方面的挑战。文章从显存占用和GPU利用率两个维度进行了深入分析:一方面,并行分支导致激活值显存膨胀,但通过1x1卷积降维和参数共享可以部分缓解;另一方面,分支间的计算负载不均衡和同步开销降低了GPU利用率。实验验证了Inception模块的显存占用和GPU利用率,并提出了动态分支剪枝和硬件感知的模型设计等优化建议。未来研究应注重算法与硬件的协同优化,以在提升模型性能的同时,有效管理显存和计算资源。

2025-05-15 14:00:52 1201

原创 【深度学习解惑】GoogLeNet 在 ImageNet 训练时使用了何种学习率衰减方案?如果改用 Cosine Decay 可能产生什么现象?

原始策略: Step Decay 简单但需调参,适合计算资源有限场景。Cosine Decay: 更鲁棒,可能提升精度,推荐配合 Warmup 使用。实验建议: 在验证集上对比两种策略的损失曲线和最终精度。

2025-05-15 13:51:58 882

原创 【深度学习解惑】Auxiliary loss 对主网络的收敛曲线有何影响?

辅助损失通过多机制协同作用显著影响主网络收敛曲线:初期加速下降(梯度补偿)、中期稳定优化(正则化)、后期提升泛化(表示学习)。合理设计的辅助损失可实现20-30%的训练效率提升,是现代架构设计的重要工具。未来研究应关注动态调整机制与理论解释的深化

2025-05-12 19:40:23 997

原创 【深度学习解惑】 为什么在 Inception v3 之后引入了分解卷积(Factorized Convolution)?举例说明 7×7 → 1×7+7×1 的好处。

Inception v3 的卷积分解策略是一种经典的结构优化手段。它通过降低计算复杂度、提升非线性建模能力,成功实现了更高效、更易训练的网络架构,影响了后续 MobileNet、EfficientNet 等网络的设计思路。

2025-05-12 19:36:48 675

原创 【深度学习解惑】Inception 模块的并行支路在训练时如何同步计算图梯度?

本文详细解析了Inception模块中并行支路的梯度同步机制,涵盖理论原理、PyTorch实现代码及优化建议。

2025-05-11 18:44:53 309

原创 【深度学习解惑】BN(BatchNorm)未出现在Inception v1 的原始论文中,如果现在给 v1 加 BN,应如何插入最合适?

虽然 Inception v1(GoogLeNet, 2014)原始论文没有使用 BN,但现在添加是完全合理且推荐的,可以提升训练稳定性、收敛速度甚至模型性能。BN 最合理的插入点是:卷积层(Conv)之后,激活函数(ReLU)之前。

2025-05-11 18:42:02 330

原创 【深度学习解惑】 Inception结构中如果把 5×5 卷积拆成两个串联的 3×3,理论上会带来哪些好处与坏处?

将5×5卷积拆分为两个3×3卷积显著降低了参数量和计算量,同时增强了非线性表达能力。需注意中间通道数的设置和优化策略,未来可结合动态网络与自动化搜索技术进一步优化。

2025-05-08 08:54:45 1241

原创 【深度学习解惑】Inception 对输入通道数做了哪几种维度减小策略?如何避免信息损失?

Inception 模块的成功不仅在于其并行结构,更体现在其对通道维度控制的精妙设计。降维并非一味压缩,而是对信息进行有选择性的提取与保留。

2025-05-08 08:04:36 1148

原创 【深度学习解惑】为什么 Inception v1 需要两个 auxiliary classifier?它们分别接在哪里、起到什么作用?

为什么 Inception v1 需要两个 auxiliary classifier?它们分别接在哪里、起到什么作用?

2025-05-05 16:50:54 647

原创 【深度学习解惑】Inception v1 使用了几层(几级)Inception 模块?每一级的输出尺寸如何变化?

Inception v1 使用了几层(几级)Inception 模块?每一级的输出尺寸如何变化?

2025-05-05 16:40:50 1128

原创 【深度学习解惑】GoogLeNet 相比传统 VGG-16,参数量减少了多少数量级?其主要“省参数”手段是什么?

GoogLeNet 相比传统 VGG-16,参数量减少了多少数量级?其主要“省参数”手段是什么?

2025-05-05 16:36:37 380

原创 【深度学习解惑】1×1 卷积在 Inception 中扮演了哪些角色?

1×1 卷积在 Inception 中扮演了哪些角色?

2025-05-04 22:41:22 1034

原创 【深度学习解惑】Inception 模块为什么要同时使用 1×1、3×3、5×5 卷积并行?

nception 模块为什么要同时使用 1×1、3×3、5×5 卷积并行?

2025-05-04 22:37:31 889

原创 【大模型开发解惑】大模型部署后,如何在用户反馈数据和增量数据上进行在线微调或增量训练?

本文系统梳理了大模型在线微调与增量训练的理论、技术与实践。从基于梯度累积与PEFT的参数高效更新,到流式训练与联邦学习的隐私保护架构,再到性能评估与未来研究方向,均提供了落地案例与代码。希望本文能为学术与工程实践提供完整参考,助力持续学习系统在工业界加速落地。

2025-05-02 23:20:05 1053

原创 【大模型开发解惑】大模型部署后,如何在本地持续收集用户反馈数据?

大模型部署后实际,如何在本地持续收集用户反馈数据?

2025-05-02 23:06:10 1110

原创 【大模型开发解惑】针对Qwen2多模态模型,如何设置不同学习率并融合视觉特征?

基于Qwen2多模态模型的学习率设置与视觉特征融合方法实践

2025-05-01 18:58:25 1158

原创 【大模型开发解惑】针对 Qwen2‑VL 系列,如何同时微调视觉和语言模块?

多模态大模型(MLLM)的轻量级调优范式迅速成熟,Qwen2-VL 系列已在 Hugging Face 提供完整权重和工具链,可通过 LoRA/QLoRA 等参数高效微调方法同时更新视觉与语言分支。在整理国内外最新实践后,下面给出一套端到端同时细调视觉 + 语言模块的实战方案,附完整代码骨架、典型案例、以及面向下一代 Qwen-VL 的前瞻建议。

2025-05-01 18:46:41 788

原创 【大模型开发解惑】DeepSeek-R1 强化学习(RL)步骤与方法解析

以DeepSeek‑R1为例, 强化学习(RL) 步骤和方法

2025-04-30 07:41:48 1074

原创 【大模型解惑】大模型如何在 Supervised Fine‑Tuning (SFT) 之后进行 PPO 强化学习微调?

大模型如何在 Supervised Fine‑Tuning (SFT) 之后进行 PPO 强化学习微调?

2025-04-30 07:38:04 1242

苹果与橘子图像数据集

苹果与橘子图像数据集. 一共包括1261张各种苹果的图像和1267张各种橘子的图像。可以用于橘子和苹果纹理转换等的深度学习训练。

2024-02-12

人脸图像集

人脸图像集. 一共9573张各种人脸图像

2024-02-12

垃圾邮件数据集

垃圾邮件数据集。包括16556个正常邮件内和27360个垃圾邮件内容。

2024-02-12

糖尿病数据集

糖尿病数据集。数据包括768个样本。可用于机器学习研究。 1、该数据集最初来自美国糖尿病/消化/肾脏疾病研究所。数据集的目标是基于数据集中包含的某些诊断测量来诊断性的预测 患者是否患有糖尿病。   2、从较大的数据库中选择这些实例有几个约束条件。尤其是,这里的所有患者都是Pima印第安至少21岁的女性。   3、数据集由多个医学预测变量和一个目标变量组成Outcome。预测变量包括患者的怀孕次数、BMI、胰岛素水平、年龄等。   4、数据集的内容是皮马人的医疗记录,以及过去5年内是否有糖尿病。所有的数据都是数字,问题是(是否有糖尿病是1或0),是二分类问题。数据有8个属性,1个类别

2024-02-12

搜狗用户画像数据集

搜狗用户画像数据集。20w(20万)。 简介:在现代广告投放系统中,多层级成体系的用户画像构建算法是实现精准广告投放的基础技术之一。其中,基于人口属性的广告定向技术是普遍适用于品牌展示广告和精准竞价广告的关键性技术。人口属性包括自然人的性别、年龄、学历等基本属性。在搜索竞价广告系统中,用户通过在搜索引擎输入具体的查询词来获取相关信息。因此,用户的历史查询词与用户的基本属性及潜在需求有密切的关系。 举例如下: 1、 年龄在19岁至23岁区间的自然人会有较多的搜索行为与大学生活、社交等主题有关 2、 男性相比女性会在军事、汽车等主题有更多的搜索行为 3、 高学历人群会更加倾向于获取社会、经济等主题的信息 用户画像是对用户的描述,一般用来精准营销。搜狗用户画像,通过搜狗搜索数据来描述用户,进行数据挖掘,使用在大数据精准营销中。 提供用户历史一个月的查询词与用户的人口属性标签(包括性别、年龄、学历)做为训练数据,通过机器学习、数据挖掘技术构建分类算法来对新增用户的人口属性进行判定。 属性字段说明:提供用户历史一个月的查询词与用户的人口属性标签(包括性别、年龄、学历等信息)

2024-02-12

危险驾驶行为图像数据集-开车电话-喝水等

危险驾驶行为图像数据集-开车电话-喝水等。 车内监控危险驾驶行为图像数据,包括电话、喝水等危险行为,还有txt和json格式的目标位置坐标数据,包括常见的一共2000张图像,包括1000张RGB彩色图像,1000张红外图像。可应用于驾驶员监控。

2024-02-12

电影评分数据集-用于电影推荐系统

电影评分数据集-用于电影推荐系统。有两个数据集。 数据集1:包括movies.csv和ratings.csv两个文件。movies.csv文件总共有27,279行,除第1行是表头外,每行用3列表示一部电影,分别为电影id(movieId)、电影名称(title)和电影类型(genres)。ratings.csv文件总共有20,000,264行,除第1行是表头外,每行用4列表示一位用户对一部电影的评分,分别为用户id(userId)、电影id(movieId)、评分(rating)和评分时间(timestamp)。这里的评分时间是用unix时间戳表示的。在这个数据集中并没有提供用户的个人信息,可能是出于保护用户隐私的考虑。 数据集2:ratings.dat是另一个电影评分数据集。包含了6000多位用户对近3900个电影的共100万(1,000,209)条评分数据,评分均为1~5的整数,其中每个电影的评分数据至少有20条。

2024-02-12

葡萄酒数据集

葡萄酒数据集。 Wine葡萄酒数据集是来自UCI上面的公开数据集,这些数据是对意大利同一地区种植的葡萄酒进行化学分析的结果,这些葡萄酒来自三个不同的品种。该分析确定了三种葡萄酒中每种葡萄酒中含有的13种成分的数量。从UCI数据库中得到的这个wine数据记录的是在意大利某一地区同一区域上三种不同品种的葡萄酒的化学成分分析。数据里含有178个样本分别属于三个类别,这些类别已经给出。每个样本含有13个特征分量(化学成分),分析确定了13种成分的数量,然后对其余葡萄酒进行分析发现该葡萄酒的分类。 每行代表一种酒的样本,共有178个样本;一共有14列,其中,第一个属性是类标识符,分别是1/2/3来表示,代表葡萄酒的三个分类。后面的13列为每个样本的对应属性的样本值。剩余的13个属性是,酒精、苹果酸、灰、灰分的碱度、镁、总酚、黄酮类化合物、非黄烷类酚类、原花色素、颜色强度、色调、稀释葡萄酒的OD280/OD315、脯氨酸。其中第1类有59个样本,第2类有71个样本,第3类有48个样本

2024-02-12

全美婴⼉姓名数据集

全美婴⼉姓名数据集。从1880年-2010年的全美婴儿姓名数据的数据集,包含出生年份,性别,名字等。利用这份数据可以对婴儿名字进行分析。

2024-02-12

住房信息数据集

住房信息数据集。 housing.data 包含506个样本,样本包含14个不同的特征: 1.人均犯罪率。 2.占地面积超过 25000 平方英尺的住宅用地所占的比例。 3.非零售商业用地所占的比例(英亩/城镇)。 4.查尔斯河虚拟变量(如果大片土地都临近查尔斯河,则为 1;否则为 0)。 5.一氧化氮浓度(以千万分之一为单位)。 6.每栋住宅的平均房间数。 7.1940 年以前建造的自住房所占比例。 8.到 5 个波士顿就业中心的加权距离。 9.辐射式高速公路的可达性系数。 10.每 10000 美元的全额房产税率。 11.生师比(按城镇统计)。 12.1000 * (Bk - 0.63) ** 2,其中 Bk 是黑人所占的比例(按城镇统计)。 13.较低经济阶层人口所占百分比 14.房价

2024-02-12

泰坦尼克号数据集

泰坦尼克号数据集。 Titanic数据集在数据分析领域是十分经典的数据集。泰坦尼克号轮船的沉没是历史上最为人熟知的海难事件之一。1912年4月15日,在她的处女航中,泰坦尼克号在与冰山相撞后沉没,在船上的 2224 名乘客和机组人员中,共造成 1502 人死亡。这场耸人听闻的悲剧震惊了国际社会,从而促进了船舶安全规定的完善。造成海难失事的原因之一是乘客和机组人员没有足够的救生艇。尽管在沉船事件中幸存者有一些运气因素,但有些人比其他人更容易存活下来,究竟有哪些因素影响着最终乘客的生存与否呢? 数据集包含11个特征,分别是: Pclass:乘客所持票类,有三种值(lower,middle,upper) Survived:0代表死亡,1代表存活 Name:乘客姓名 Sex:乘客性别 Age:乘客年龄(有缺失) SibSp:乘客兄弟姐妹/配偶的个数(整数值) Parch:乘客父母/孩子的个数(整数值) Ticket:票号(字符串) Fare:乘客所持票的价格(浮点数,0-500不等) Cabin:乘客所在船舱(有缺失) Embark:乘客登船港口:S、C、Q(有缺失)

2024-02-12

食品营养信息数据集

食品营养信息数据集。美国农业部(USDA)制作了一份有关食物营养信息的数据,包括食品的描述,标签,厂家,分组,成分和营养等信息。样本有6636条

2024-02-12

美国政府网站访问情况数据集

美国政府网站访问情况数据集。美国政府网站http://USA.gov部分用户匿名数据。数据是JSON格式,包括用户所在时区,用户终端信息等。

2024-02-12

商铺logo图像集

商铺logo图像集. 样本数量:3725 简介:包括星巴克、屈臣氏、宝岛眼镜等常见的100个不同商家店铺的logo招牌图像数据集,每个商家的logo图像有400个左右。可以用于深度学习图像分类训练的学习。

2024-02-12

美国联邦选举委员会-政治竞选赞助方面的数据集

美国联邦选举委员会-政治竞选赞助方面的数据集。 美国联邦选举委员会发布了有关政治竞选赞助方面的数据。其中包括赞助者的姓名、职业、雇主、地址以及出资额等信息。样本数据量100w条左右。可用于机器学习和数据分析

2024-02-12

海地地震危机数据集

海地地震危机数据集。海地地震危机与求助数据,可以根据数据标记地图求助信息。

2024-02-12

乳腺癌数据集.zip

乳腺癌数据集。数据集来自UCI机器学习存储库的wdbc.data(威斯康星乳腺癌数据集),其中包含了569个正常和异常的细胞样本,特征共30个。在整个569个患者中,一共有357个是良性,212个是恶性。

2024-02-12

开车打手机图像数据集.zip

开车打手机图像数据集。样本数量:1051 简介:包含车内开车打手机的图像和对应手机位置的标记文件,标记文件为xml格式。可以用于打手机目标检测的训练数据集。

2024-02-12

电商网站销售数据

电商网站销售数据。样本数量:541909 简介:数据集来自一个在英国注册的在线电子零售公司,在2010年12月1日到2011年12月9日期间发生的网络交易数据,共有541909条记录、8个字段。

2024-02-12

阿里真实用户-商品行为数据-推荐系统

阿里真实用户-商品行为数据-推荐系统应用。 样本数量:tianchi_mobile_recommend_train_item 商品信息 50w左右 tianchi_mobile_recommend_train_user 用户商品交互信息 500w左右 tianchi_mobile_recommend_train_user_down2 用户商品交换信息2 500w左右 简介:以阿里巴巴移动电商平台的真实用户-商品行为数据为基础,同时提供移动时代特有的位置信息。通过大数据和算法构建面向移动电子商务的商品推荐模型,挖掘数据背后丰富的内涵,为移动用户在合适的时间、合适的地点精准推荐合适的内容。提供的数据包含两个部分。第一部分是用户在商品全集上的移动端行为数据,表名为tianchi_mobile_recommend_train_user和tianchi_mobile_recommend_train_user_down2。 第二个部分是商品子集,表名为tianchi_mobile_recommend_train_item。 可应用于推荐系统的训练与测试。

2024-02-12

PaddleOCR文字识别的完整代码

展示了如何使用PaddleOCR库来进行图像文字识别。通过安装PaddleOCR、加载模型、进行OCR识别,并绘制结果,我们可以轻松地实现图像中的文字识别任务。如果需要在更复杂的任务中应用,PaddleOCR提供了丰富的API接口,可对识别结果进行后处理和自定义调整。

2025-02-21

论文:DeepSeek-V3 Technical Report

**DeepSeek-V3 技术报告** **摘要** DeepSeek-V3 是 DeepSeek 团队推出的最新一代人工智能模型,旨在通过技术创新和性能优化,进一步提升模型在多任务、多领域场景下的表现。本技术报告详细介绍了 DeepSeek-V3 的架构设计、训练方法、性能评估以及应用场景,展示了其在自然语言处理、代码智能、多模态理解等方面的突破性进展。 **核心内容** 1. **架构设计** - **模块化设计**:DeepSeek-V3 采用模块化架构,支持灵活的任务定制和扩展。 - **混合专家系统(MoE)**:引入混合专家机制,通过动态路由实现任务的高效分配与处理。 - **多模态融合**:支持文本、图像、代码等多种数据类型的联合建模与理解。 2. **训练方法** - **大规模预训练**:基于海量高质量数据,采用自监督学习方法进行预训练,提升模型的泛化能力。 - **多任务学习**:通过多任务联合训练,增强模型在跨领域任务中的适应性和表现。 - **高效微调**:提供轻量级微调工

2025-02-21

论文:DeepSeek-Coder: When the Large Language Model Meets Programming - The Rise of Code Intelligence

**DeepSeek-Coder:当大语言模型遇见编程——代码智能的崛起** **摘要** DeepSeek-Coder 是一项探索大语言模型(LLM)与编程领域深度融合的研究计划,旨在推动代码智能技术的快速发展。通过结合大语言模型的强大能力与编程领域的专业知识,DeepSeek-Coder 致力于实现代码生成、理解、优化和调试的智能化,为开发者提供高效、精准的工具支持。 该计划的核心研究方向包括: 1. **代码生成与补全**:利用大语言模型生成高质量代码,并提供智能化的代码补全建议,提升开发效率。 2. **代码理解与文档化**:通过自然语言处理技术,自动解析代码逻辑并生成相应的文档,降低代码维护成本。 3. **代码优化与重构**:识别代码中的性能瓶颈和潜在问题,提供优化建议和自动化重构方案。 4. **智能调试与错误修复**:结合程序分析与机器学习技术,快速定位代码错误并生成修复方案。 5. **开源与开发者生态**:构建开放的代码智能平台,促进开发者社区的协作与创新。 DeepSeek-Coder 的目标是通过大语言模型与编程技术的结

2025-02-21

论文细节:DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models

**DeepSeekMoE:迈向混合专家语言模型的终极专家专业化** **摘要** DeepSeekMoE 是一项专注于提升混合专家(Mixture-of-Experts, MoE)语言模型性能的研究计划,旨在通过极致的专家专业化优化模型的表现。混合专家模型通过将任务分配给多个专业化子网络(即“专家”)来提高效率和性能,而 DeepSeekMoE 进一步推动了这一范式,致力于实现每个专家的高度专业化。 该研究重点包括: 1. **专家专业化**:通过精细化的训练和架构设计,使每个专家在特定领域或任务上达到最优性能。 2. **动态路由优化**:改进模型中的路由机制,确保输入数据能够高效分配给最合适的专家。 3. **可扩展性与效率**:在保持高性能的同时,降低计算资源消耗,使模型更适用于实际应用场景。 4. **开源与协作**:推动开源社区的共同发展,促进技术共享和创新。 DeepSeekMoE 的目标是为混合专家模型设立新的技术标准,推动语言模型在专业化、效率和性能方面的突破,同时为人工智能的长期发展提供可持续的技术支持。

2025-02-21

论文细节:DeepSeek LLM Scaling Open-Source Language Models with Longtermism

DeepSeek LLM:以长期主义扩展开源语言模型 摘要 DeepSeek LLM 是一项致力于推动开源语言模型发展的计划,其核心目标是通过可扩展性和长期可持续性来构建更强大的语言模型。该项目强调开发具有鲁棒性、可扩展性且符合伦理规范的语言模型,并推动其被全球社区广泛采用和持续改进。通过融入长期主义理念,DeepSeek LLM 旨在确保这些模型的开发不仅满足当前需求,还能为未来社会带来长期价值。项目重点关注开源协作、技术普惠以及对社会和环境的积极影响,致力于推动人工智能技术的可持续发展。

2025-02-21

论文:DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

DeepSeek-R1实现技术细节

2025-02-21

chatGPT从入门到精通

chatGPT从入门到精通,一共116页,是chatgpt入门的优秀文档。

2024-12-21

用于安全带检测的车内驾驶安全带图像

一共包括1080张车内带有安全带的人员驾驶图像,同时包括对应的1080个安全带目标检测的位置标记文件。可以用于驾驶员监控的安全带的目标检测训练。

2024-06-30

深度学习-人脸卡通化-实现代码

python环境,包括推理和训练代码。包括pytorch模型和onnx模型。有预训练模型,可以直接对人脸图像进行卡通化,有训练代码,可以自己根据需要,使用自己的数据集,重新训练自己的模型。

2024-02-16

车内驾驶员行为图像集包括打手机-喝水-转身等情景

车内驾驶员行为图像集包括打手机-喝水-转身等情景,样本数量:2w左右

2024-02-12

深度学习-猫和狗图像集

一共30000(3w)张左右图像,包括各种猫和狗的图像,可以用于深度学习的分类训练。

2024-02-12

深度学习-目标检测-人头数据集001

深度学习-目标检测-人头数据集,一共有7581张包括各种人头场景的图像,每张图像有对应的人头位置的标记文件。用于深度学习人头目标检测训练。注意由于系统对文件大小限制,需要分成2个文件,仅仅”深度学习-目标检测-人头数据集001“文件需要积分,其他不需要。 该文件下载后,请继续下载另外一个,在同一个目录下进行解压即可。另外一个与该文件同在一个下载资源中,文件名“深度学习-目标检测-人头数据集002“

2024-02-12

深度学习-目标检测-人头数据集002

深度学习-目标检测-人头数据集,一共有7581张包括各种人头场景的图像,每张图像有对应的人头位置的标记文件。用于深度学习人头目标检测训练。注意由于系统对文件大小限制,需要分成2个文件,仅仅”深度学习-目标检测-人头数据集001“文件需要积分,其他不需要。 该文件下载后,请继续下载另外一个,在同一个目录下进行解压即可。另外一个与该文件同在一个下载资源中,文件名“深度学习-目标检测-人头数据集001“

2024-02-12

深度学习-目标检测-密集人头检测数据集001

深度学习-目标检测-密集人头检测数据集,brainwash数据集是一个密集人头检测数据集,拍摄在人群出现的各种区域,然后对这群人进行标注而得到的数据集。包含三个部分,训练集:10769张图像81975个人头,验证集:500张图像3318个人头。测试集:500张图像5007个人头。可以用于密集人头目标检测的训练。注意由于系统对文件大小限制,需要分成2个文件,仅仅”深度学习-目标检测-密集人头检测数据集001“文件需要积分,其他不需要。该文件下载后,请继续下载另外一个,在同一个目录下进行解压即可。另外一个与该文件同在一个下载资源中,文件名“深度学习-目标检测-密集人头检测数据集002“

2024-02-12

深度学习-目标检测-密集人头检测数据集002

深度学习-目标检测-密集人头检测数据集 注意由于系统对文件大小限制,需要分成2个文件,仅仅”深度学习-目标检测-密集人头检测数据集001“文件需要积分,其他不需要。该文件下载后,请继续下载另外一个,在同一个目录下进行解压即可。另外一个与该文件同在一个下载资源中,文件名“深度学习-目标检测-密集人头检测数据集001“ brainwash数据集是一个密集人头检测数据集,拍摄在人群出现的各种区域,然后对这群人进行标注而得到的数据集。包含三个部分,训练集:10769张图像81975个人头,验证集:500张图像3318个人头。测试集:500张图像5007个人头。可以用于密集人头目标检测的训练。

2024-02-12

深度学习-表情识别-人脸表情数据集001

深度学习-表情识别-人脸表情数据集。注意由于文件大小限制,需要分成2个文件,仅仅”深度学习-表情识别-人脸表情数据集001“文件需要积分,其他不需要。该文件下载后,请继续下载另外一个,在同一个目录下进行解压即可。另外一个与该文件同在一个下载资源中,文件名“深度学习-表情识别-人脸表情数据集002“

2024-02-12

深度学习-表情识别-人脸表情数据集002

深度学习-表情识别-人脸表情数据集。注意由于文件大小限制,需要分成2个文件,仅仅”深度学习-表情识别-人脸表情数据集001“文件需要积分,其他不需要。该文件下载后,请继续下载另外一个,在同一个目录下进行解压即可。另外一个与该文件同在一个下载资源中,文件名“深度学习-表情识别-人脸表情数据集001“

2024-02-12

各种室内场景图像集001

各种室内场景图像集001。注意由于文件大小限制,需要分成3个文件,仅仅该文件需要积分,其他两个并不需要。该文件下载后,请继续下载另外两个在同一个目录下进行解压即可。另外两个与该文件同在一个下载资源中,文件名“各种室内场景图像集002“和 “各种室内场景图像集003“. 数据集包含67个室内类别,总共15620个图像。图像数量因类别而异,但每个类别至少有100张图像。

2024-02-12

各种室内场景图像集002

各种室内场景图像集002。注意由于文件大小限制,需要分成3个文件,仅仅”各种室内场景图像集001“文件需要积分,其他两个并不需要。该文件下载后,请继续下载另外两个,在同一个目录下进行解压即可。另外两个与该文件同在一个下载资源中,文件名“各种室内场景图像集001“和 “各种室内场景图像集003“. 数据集包含67个室内类别,总共15620个图像。图像数量因类别而异,但每个类别至少有100张图像。

2024-02-12

各种室内场景图像集003

各种室内场景图像集003。注意由于文件大小限制,需要分成3个文件,仅仅”各种室内场景图像集001“文件需要积分,其他两个并不需要。该文件下载后,请继续下载另外两个,在同一个目录下进行解压即可。另外两个与该文件同在一个下载资源中,文件名“各种室内场景图像集001“和 “各种室内场景图像集002“. 数据集包含67个室内类别,总共15620个图像。图像数量因类别而异,但每个类别至少有100张图像。

2024-02-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除