自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(58)
  • 收藏
  • 关注

原创 RAGFlow 本地部署后如何连接本地模型

本文详细讲述了如何将本地模型配置到 RAGFlow,虽然没官方文档也有介绍,但是基本上是一笔带过,不是很详细,我也根据网上的方法做了一些尝试,但都没有达到想要的效果,于是就有了这篇文章,想详细记录一下部署过程,避免大家走弯路。

2025-05-21 16:24:02 861

原创 Windows 环境下 Docker Desktop 安装 + 汉化

在开发过程中,Docker 是一款极为实用的工具。本教程专为 Windows 用户打造,将全面且细致地讲解 Docker Desktop 的安装与配置步骤,助您迅速入门并熟练掌握。同时,考虑到语言使用习惯,我们精心准备了 Docker Desktop 汉化教程,让您能以更直观易懂的界面管理和操作容器环境。期望这份指南能为您的开发工作增添助力,使 Docker 成为您提升效率的绝佳帮手。

2025-05-15 14:45:29 975

原创 RAGFlow Windows环境下本地部署全攻略

本文讲述了如何从0构建RAGFlow,其中包括在windows系统下的docker、WSL以及ubuntu的详细安装步骤,保证初学者一看就会,其中也包括很多在安装中遇到的问题,可以让读者少走很多弯路

2025-05-13 10:07:51 1294 3

原创 windows 在安装 Ubuntu-20.04 显示操作超时解决办法

在安装 Ubuntu-20.04 时,若系统显示操作超时,可能是由于未启用 Windows 虚拟机监控程序平台。解决方法如下:首先,通过控制面板打开“程序和功能”,然后点击“启用或关闭 Windows 功能”,找到并勾选“虚拟机平台”和“Windows 子系统 for Linux”两个选项。启用这些功能后,重新尝试安装即可解决问题。

2025-05-12 14:07:06 285

原创 TensorFlow 安装全攻略

通过本文的一步步指导,你可以轻松完成 TensorFlow 的多平台安装,并掌握常见问题的解决方法。在实际开发中,建议优先使用虚拟环境隔离项目依赖,并根据硬件配置选择合适的 TensorFlow 版本。遇到复杂问题时,可结合官方文档和社区资源快速定位解决方案。安装常见错误代码速查表:检查显卡兼容性:重新安装匹配的 cuDNN 版本:切换国内镜像源或使用代理祝大家在深度学习的道路上一帆风顺!🌟。

2025-04-27 16:27:43 1307

原创 pandas 安装与使用一文知

pandas 是基于 Python 的开源数据处理与分析库,由 Wes McKinney 于 2008 年开发,旨在提供高效、灵活的数据结构和工具,解决现实中的数据分析问题。其名称源自 “panel data”(面板数据)和 “python data analysis” 的结合。pandas 是数据科学领域的核心工具,其设计哲学围绕 “让数据操作更简单、更直观” 展开。

2025-04-22 10:18:39 1887

原创 一文穿透 NumPy 实用指南

NumPy 是科学计算的 Python 基本包,它是一个 Python 库,它提供多维数组对象、各种派生对象(例如掩码数组和矩阵)以及用于数组快速作的例程分类,包括数学、逻辑、形状作、排序、选择、I/O、离散傅里叶变换、基本线性代数、基本统计运算、随机模拟等等。

2025-04-18 09:41:01 692

原创 传统神经网络、CNN与RNN

从传统神经网络开始介绍三个网络

2025-03-30 14:27:59 1503 10

原创 特征选择方法

在机器学习领域,原始数据往往包含大量冗余、噪声或无关特征,直接使用全量特征会导致计算成本增加、模型过拟合以及解释性下降。特征选择的核心目标是从高维数据中筛选出最具预测能力的特征子集,从而提升模型性能、降低复杂度并增强可解释性。通过合理的特征工程,不仅能提升模型性能,还能为业务决策提供更清晰的洞见。特征选择作为机器学习中非常重要的一环,一直极大程度的决定这模型的效果,下面就让我们一起进入特征选择的世界,为了方便大家总结归纳,在开头家里一个思维导图,大家可以根据内容对照查看。嵌入法 Embedded。

2025-03-26 17:00:59 949 38

原创 朴素贝叶斯:理论、实践与最优性探秘

朴素贝叶斯是一种基于贝叶斯定理的监督学习算法,其"朴素"源于对特征间条件独立性的假设。尽管这个假设在现实中很少成立,但该算法在文本分类、垃圾邮件过滤等场景表现优异,尤其在数据量较少时仍能保持高效稳定。图1展示了其核心思想:所有特征在给定类别下独立。根据Harry Zhang教授的理论研究,朴素贝叶斯的成功源于依赖分布均衡性局部依赖抵消:不同特征的依赖方向在各类别中相互抵消

2025-03-25 11:07:42 866 9

原创 集成学习(下):Stacking集成方法

Stacking(堆叠法)是一种集成学习技术,通过组合多个基学习器(base learner)的预测结果,并利用一个元模型(meta-model)进行二次训练,以提升整体模型的泛化性能。如果说 Bagging 是民主投票,Boosting 是学霸纠错,那么 Stacking 就是组建专家智囊团。如同医院的多学科会诊(MDT),Stacking通过分层建模将不同领域的专家意见进行综合,突破单一模型的天花板。

2025-03-21 15:10:27 1393 44

原创 集成学习(中):Boosting集成方法

如果说Bagging是民主投票,那么Boosting就是学霸纠错。就像学生在错题本上反复练习薄弱知识点,Boosting通过迭代修正的方式让模型在错误中持续进化。Kaggle竞赛的启示:在2023年之前Kaggle机器学习结构化数据竞赛中,85%的Top方案使用XGBoost或LightGBM。其中,Boosting类算法在时间序列预测任务中的准确率比传统方法平均提升23%。

2025-03-20 09:14:00 858 14

原创 集成学习(上):Bagging集成方法

在机器学习的世界里,没有哪个模型是完美无缺的。就像古希腊神话中的"盲人摸象",单个模型往往只能捕捉到数据特征的某个侧面。但当我们把多个模型的智慧集合起来,就能像拼图一样还原出完整的真相,接下来我们就来介绍一种“拼图”算法——集成学习。集成学习是一种机器学习技术,它通过组合多个模型(通常称为“弱学习器”或“基础模型”)的预测结果,构建出更强、更准确的学习算法。这种方法的主要思想是利用群体智慧的概念——即整体性能优于单个个体。

2025-03-17 15:59:56 1431 45

原创 直方图梯度提升:大数据时代的极速决策引擎

梯度提升决策树(GBDT)作为集成学习的代表算法,通过迭代构建决策树实现预测能力的持续提升。传统GBDT在处理每个节点分割时需要对特征值进行全量排序,当面对高维大数据时,计算复杂度呈指数级增长。

2025-03-16 10:32:54 1005 6

原创 深度迁移学习实战指南:从理论到产业级应用

迁移学习是指将已经在某一特定任务上训练好的模型参数应用于另一不同但相关的新任务中,以此来提高新任务的学习效率和效果。通过这种方式,迁移学习可以在目标域的数据量有限的情况下仍然取得较好的泛化能力。

2025-03-12 16:37:48 1587 45

原创 超长4万字大模型技术术语全解析:100+核心概念与实战代码指南

在当今的人工智能领域,大模型技术无疑是最为耀眼的明星。随着GPT、文心一言、通义千问等模型的问世,大模型已经深入到我们生活的方方面面,从智能语音助手到智能写作工具,从智能翻译到智能客服,其影响力无处不在。为了帮助大家更好地理解大模型相关的技术和概念,我特别整理了这份大模型术语表,涵盖了100多个关键概念,希望能为大家在探索大模型的道路上提供有力的支持。避免大家看不到最后,直接上点干货[坏笑]

2025-03-11 11:49:12 1361 19

原创 全球首款通用型AI Agent——Manus 震撼发布

作为一款突破性AI产品,Manus突破了传统聊天机器人的局限,不仅能提供建议,还能通过多代理协作系统自主规划、执行并交付复杂任务,覆盖教育、金融、生活服务、数据分析等多个领域。技术层面,Manus 在权威的 GAIA 基准测试中表现优异,创下 SOTA 成绩,超越同类产品。又占据了各大新闻媒体网站,热度甚至一度超过了年前 DeepSeek 刚发布的时候,3月6日,A股市场高开高走,AI智能体概念表现火爆,截至收盘,立方控股30%涨停,新开普、汉得信息、中亦科技、致远互联、鼎捷数智、康力源等20%涨停。

2025-03-07 10:57:58 1506 15

原创 阿里深夜推出全新推理模型,仅1/20参数媲美DeepSeek R1满血版

阿里深夜推出全新推理模型,仅1/20参数媲美DeepSeek R1

2025-03-06 11:49:41 3577 47

原创 大模型核心要素完全解析:从数字神经元到智能对话的奥秘

在大模型的语境中,token 是一个非常重要的概念,token 通常是指将输入文本或其他数据进行分割后得到的一个个基本单元。简单来说,就是把文本拆分成一个个小块,这些小块可以是单词、字符、子词等,模型就是基于这些 token 来进行处理和理解的。例如,对于句子 “I love apples”,可能会被分割成三个 token:“I”“love”“apples”。

2025-03-05 10:59:12 1136 17

原创 PyCharm 无法识别 Conda 环境的解决方案

其实这是新版 pycharm 环境兼容问题,是正常的。我在网上找了很多解决办法,都没有有效解决这个问题,包括将环境路径替换为 .bat 文件和查找 python.exe 文件。到这一步应该已经解决了新版 PyCharm 找不到 conda 环境的问题,如果没有,你可以参考下面的几种方法,再次尝试。通过本指南的系统化排查,可解决99%的 Conda 环境识别问题。如仍遇困难,建议检查系统权限设置或尝试。

2025-03-04 10:16:55 5766 14

原创 PyTorch终极安装指南:CPU/GPU双版本+环境配置全攻略

最后一条命令设置在安装包时显示所使用的镜像源 URL,当然你也可以忽略这几条指令,不用管这一步骤,但是后面使用 conda 下载安装库的时候可能会比较慢,上面的指令直接在终端一一敲入即可,没有太多需要注意的地方,这里不做过多的解释,如果有不懂的,可以在评论区发出来,我看到会及时解答。通过以上步骤判断好了自己电脑是否有GPU,就可以通过后面的步骤安装适合自己电脑的版本,我GPU和CPU版本的安装都做了,所以大家注意甄别,不带说明的,是都要进行的操作。选择好路径之后,点击Next。

2025-03-01 09:09:02 4572 48

原创 Mean Shift聚类算法深度解析与实战指南

Mean Shift(均值漂移)是一种基于密度梯度上升的非参数聚类算法,无需预设聚类数量,通过迭代寻找概率密度函数的局部最大值完成聚类。该算法在图像分割、目标跟踪等领域有广泛应用,尤其擅长处理任意形状的密度分布。

2025-02-28 15:12:47 881 18

原创 Affinity Propagation 算法深度解析与实战指南

Affinity Propagation(近邻传播算法)是一种基于消息传递的自适应聚类算法,突破传统聚类需要预设类别数的限制。其核心创新在于通过数据点间的吸引度(Responsibility)和归属度(Availability)迭代计算,自动识别最优聚类中心。

2025-02-27 09:47:21 1085 16

原创 BIRCH算法深度解析与实践指南

BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies)是首个针对超大规模数据集的聚类算法,可在有限内存下高效处理十亿级数据。其核心创新在于采用CF Tree数据结构,将数据压缩为多级聚类特征摘要,实现单次扫描完成聚类。

2025-02-23 10:50:54 1741 31

原创 HDBSCAN:密度自适应的层次聚类算法解析与实践

HDBSCAN(Hierarchical Density-Based Spatial Clustering)是基于DBSCAN改进的先进聚类算法,突破传统密度聚类对全局密度的假设,能够有效处理变密度数据分布。其核心创新在于将密度聚类转化为层次结构,通过稳定性分析提取最优平面聚类,无需预设密度阈值参数eps,显著提升算法鲁棒性。HDBSCAN通过创新的层次密度聚类方法,解决了传统算法在处理变密度数据时的局限性。其自动化的参数适应机制和直观的聚类稳定性分析,使其成为复杂数据场景下的首选聚类工具。

2025-02-22 10:11:46 2202 44

原创 一文穿透OPTICS聚类算法:比DBSCAN更强的密度洞察力

在DBSCAN算法面临参数敏感困境时,OPTICS(Ordering Points To Identify the Clustering Structure)应运而生。这个算法革命性地解决了以下痛点:1. 参数敏感:DBSCAN的eps参数如同走钢丝,稍有不慎就导致结果偏差 2. 密度不均:传统算法难以处理同时存在稀疏和密集区域的数据集 3. 维度限制:高维数据下传统密度算法性能骤降

2025-02-19 16:04:33 1277 18

原创 Token Statistics Transformer:线性注意力革命,重新定义Transformer效率天花板

TOKEN STATISTICS TRANSFORMER: LINEAR-TIME ATTENTION VIA VARIATIONAL RATE REDUCTION” 由Ziyang Wu等人撰写。文章提出一种新型Transformer注意力算子,通过对最大编码率降低(MCR2)目标的变分形式进行展开优化得到,其计算复杂度与令牌数量呈线性关系,在保证性能的同时显著提高计算效率。也因此 ToST 也作为 Spotlight 论文,入选了 ICLR 2025 大会。下面是对本篇论文的重点总结。

2025-02-18 14:38:01 2131 21

原创 一文吃透 DBSCAN:原理、实战与工业应用全解析

DBSCAN(Density-Based Spatial Clustering)的诞生破解了这些难题。它不仅能自动识别簇数量,还能发现任意形状的簇,更具备噪声过滤能力。这些特性使其成为银行反欺诈、社交网络分析等场景的首选算法。

2025-02-17 17:25:40 1329 7

原创 DeepSeek官方发布R1模型推荐设置

尽管此次更新只是对DeepSeek-R1项目的README.md文件进行了调整,但官方的这一举措依然收获了众多好评。比如,对于不使用系统提示词这一点,有些用户担心在处理一些复杂专业任务时,没有系统提示词的引导,模型是否能够准确理解任务要求;关于温度设置为0.6,一些从事创意艺术创作的用户可能会觉得这个温度设定限制了模型的想象力,无法满足他们对内容丰富度和创新性的更高要求。这次官方亲自下场,推荐了部署DeepSeek-R1的相关设置,消息一经发布,瞬间吸引了全网AI爱好者和开发者的目光,大家纷纷围观讨论。

2025-02-14 20:15:47 2561 21

原创 本地部署DeepSeek后的调用与删除全攻略

在本地成功部署DeepSeek模型后,如何高效调用它发挥其强大功能,以及在不需要时妥善删除,是很多用户关注的重点。我也在后台接到了很多粉丝的留言,询问 DeepSeek 本地部署之后的一些调用和删除的问题,于是我在网上找了现在主流热门的三种本地部署方案,对照他们的部署方式对出了调用和删除的指令,接下来,我们将从不同的部署方式入手,详细介绍对应的调用和删除方法。当然你如果不了解 DeepSeek,这几篇文章会让你快速领略 DeepSeek 的风采:好了话不多说,接下来进入我们今天的主题环节。

2025-02-13 14:12:15 10741 23

原创 【大模型】清华大学手把手教你如何使用DeepSeek(内附清华大学官方资料)

在人工智能飞速发展的当下,DeepSeek作为一款功能强大的工具,为我们的学习、工作和创作带来了诸多便利。清华大学的相关研究为我们深入了解和高效使用DeepSeek提供了宝贵指导,下面就跟着这份指南,开启DeepSeek的探索之旅吧。如果你不太了解 DeepSeek,你可以观看下面几篇关于DeepSeek的介绍与分析。

2025-02-11 14:17:17 10001 24

原创 如何让DeepSeek成为你的私人客服:DeepSeek接入微信一文全解析

在人工智能飞速发展的当下,DeepSeek凭借其强大的语言处理能力和智能交互表现,成为众多开发者眼中的得力助手。要是能把DeepSeek接入微信,让它在微信这个日常使用频繁的社交平台上,化身私人客服,随时为用户答疑解惑,那可真是太实用了!今天,就来详细讲讲如何实现这一超酷的操作。

2025-02-10 15:49:27 11903 15

原创 【深度学习】突破数据局限:少样本图像数据的特征提取实战攻略

在进行深度图像处理时最重要的一步往往是图像特征提取检测,尤其是样本特征较少时,接下来我们以人脸识别之舌头识别为例,来讲解一下少数据样本时常用的五种图像数据特征提取的方法。在构建舌头识别模型时,当样本数据量较少的情况下,实现舌象/面象特征提取检测是关键的第一步。接下来,我们将详细介绍各种实用的方法。

2025-02-10 14:24:46 1683 4

原创 DeepSeek-R1不同版本的 1.5B、7B、8B、14B、32B、70B、671B 主要区别以及各个蒸馏版本的优缺点

在人工智能大模型蓬勃发展的当下,DeepSeek-R1系列大模型凭借其出色的性能和广泛的应用潜力,受到了众多开发者和研究人员的关注。该系列包含1.5B、7B、8B、14B、32B、70B、671B等不同版本,每个版本都有其独特之处。今天,我们就来深入探讨一下这些版本的主要区别,以及各个蒸馏版本的优缺点,帮助大家在实际应用中做出更合适的选择。

2025-02-08 14:54:39 41293 36

原创 工具推荐 | 解锁AI潜能:蓝耘平台与DeepSeek模型的创新协同

在科技飞速发展的当下,人工智能(AI)已从实验室的前沿探索,深度融入人们生活和工作的每一处细节。从日常的智能语音助手,到改变行业格局的智能生产系统,AI正以惊人的速度重塑世界。在这场AI革命中,大模型成为推动技术进步的核心力量,而DeepSeek系列模型凭借其卓越的性能,在自然语言处理和计算机视觉等领域展现出无限潜力。

2025-02-08 14:46:49 1156 2

原创 DeepSeek_R1蒸馏技术一文解析:让小模型也能拥有“超级大脑”

在人工智能领域,大语言模型(LLMs)的发展正逐渐拉近与通用人工智能(AGI)的距离,而推理能力作为衡量模型智能程度的关键指标,备受关注。DeepSeek 团队推出的 DeepSeek-R1 系列模型,通过强化学习(RL)和蒸馏技术,为提升模型推理能力带来了新的突破,本文将深入剖析其中的蒸馏技术。

2025-02-08 09:07:01 2412 9

原创 【大模型】深度解读 DeepSeek - R1 提示词

在人工智能的应用中,提示词是与模型高效沟通、获取理想结果的关键“密码”。今天,我们就来深入剖析DeepSeek - R1的提示词库,探寻其中丰富多样的实用功能。DeepSeek - R1的提示词库应用广泛,涵盖编程、文本处理、创意写作等多个领域,为用户提供了丰富的使用场景。

2025-02-07 14:29:16 1671 5

翻译 【大模型】DeepSeek-R1 论文原文翻译 + 解读

我们介绍了第一代推理模型DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1-Zero是通过大规模强化学习(RL)训练的模型,无需将监督微调(SFT)作为初步步骤,展现出卓越的推理能力。通过强化学习,DeepSeek-R1-Zero自然地展现出许多强大且引人注目的推理行为。然而,它面临着诸如可读性差和语言混杂等挑战。为了解决这些问题并进一步提升推理性能,我们推出了DeepSeek-R1,它在强化学习前融入了多阶段训练和冷启动数据。

2025-02-07 11:23:54 1006 1

原创 DeepSeek各版本说明与优缺点分析

从表格看,o1 - mini在CodeForces竞赛评分上优势明显;DeepSeek - R1蒸馏的大参数模型(如DeepSeek - R1 - Distill - Qwen - 32B、DeepSeek - R1 - Distill - Llama - 70B)在数学和编程相关测试集表现较好,反映出DeepSeek - R1蒸馏技术对模型性能有提升作用,不同模型在各测试集有不同优势。特点DeepSeek系列的不断迭代和升级,体现了其在自然语言处理、推理能力和应用生态等方面的持续进步。

2025-02-05 14:36:26 62538 32

原创 pthon烟花代码 -- 超详细!新年烟花代码逐行解析(可更换烟花背景图)

可更换背景的新年电子烟花,去换上你喜欢的一张背景图去,欣赏一场电子烟花秀吧

2025-01-25 09:00:00 1446 4

pandas - Zipped HTML

pandas - Zipped HTML

2025-04-21

这篇文章是《numpy-ref.pdf》文档的内容概述,主要介绍了NumPy 2.2.0版本的参考手册 以下是文章的主要内容:

内容概要:本文档是关于NumPy库的官方参考手册,版本为2.2.0,发布于2025年1月19日。手册详细描述了NumPy的功能模块、对象及其用途。手册分为Python API、C API、其他主题和致谢部分。Python API部分介绍了NumPy的核心命名空间和子模块,包括常用的fft(快速傅里叶变换)、linalg(线性代数)、random(随机数生成)等模块。手册还涵盖了特殊用途和遗留命名空间的内容,以及各种异常处理机制。此外,手册提供了详细的函数参数说明、示例代码和相关的数学背景知识。 适合人群:具备一定编程基础

2025-04-17

朴素贝叶斯的最优性研究

张教授关于朴素贝叶斯的最优性研究

2025-03-25

朴素贝叶斯的最优性研究

内容概要:论文探讨了朴素贝叶斯分类器(Naive Bayes)表现出色的原因。作者提出了一种新解释,即节点间的局部依赖关系及其分布对分类的影响比单纯依赖条件独立假设更为关键。无论属性间依赖关系有多强,如果这些依赖在不同类别的分布是均匀的,或者可以相互抵消,朴素贝叶斯仍然是最优选择。文中定义了两种分类器在零一损失函数下相等的概念以及提出了局部与全局依赖分布理论,并证明了一个充分必要条件来确定朴素贝叶斯的优化时机。另外还讨论了多元高斯分布情况下的具体优化条件,指出朴素贝叶斯可能由于属性间的依赖性相互补偿而保持高性能。 适合人群:具有统计学基础知识或机器学习背景的研究者,数据分析师,从事机器学习领域的专业工作者。 使用场景及目标:研究目的是为了深入了解为什么朴素贝叶斯分类器即使基于几乎不成立的前提——即所有特征在给定类别标签的情况下彼此独立,也能达到较好的预测性能。它适用于希望从数学角度解释朴素贝叶斯高效性的读者,或是试图改进现有模型效果并寻找更优解决方案的专业人士。 阅读建议:对于那些想要了解朴素贝叶斯实际运作机制的人士来说,本篇文章提供了一个深入的技术解读。读者应该注意关注关于‘局部依赖导数比’的部分,这对于理解整个系统的性能至关重要。并且要注意到在特定情况下,即使违反条件独立性假设,朴素贝叶斯仍能有效工作的情况。最后部分有关于高斯分布下的分析,为实际应用提供了有价值的参考案例。此外,读者还可以从中获得一些新的见解和启示,用以思考怎样进一步提升类似模型的表现。

2025-03-25

TOKEN STATISTICS TRANSFORMER: LINEAR-TIME ATTENTION VIA VARIATIONAL RATE REDUCTION

内容概要:论文介绍了Token Statistics Transformer(TOST)及其注意力机制——Token Statistics Self-Attention(TSSA),这是一个基于白盒架构设计的新型自注意力模型。TOST的独特之处在于它不计算标记之间的成对相似度,而是从标记特征的二阶统计量构建低秩投影,因此仅需线性时间复杂度来完成任务,显著提高了处理大量高维令牌时的速度与内存效率。TOST在图像分类任务如ImageNet上展示了具有竞争力的表现,并且在长序列建模基准测试中的性能优于其它transformer架构变体,同时保持甚至提升任务表现。 适用人群:对于机器学习尤其是深度学习领域有一定背景的研究人员和技术爱好者;对改进transformer架构有强烈兴趣的学生或者工程师们亦将受益。 使用场景及目标:适用于需要高效处理大规模或长距离相关性的视觉和语言处理任务;目标包括替代传统自我关注操作以提高系统效率和可解释性,同时确保模型效果不受损或得到优化。 其他说明:作者提供了详细的实验设置及配置信息,并对比了多个现有模型的参数数量和效能指标,表明在减少计算资源消耗方面存在明显优势。未来研究方向集中在验证更大规模应用下的精度是否仍然具有竞争力以及探索替换MLP模块的设计可能性。此外,在因果版本的语言建模任务中也取得了良好的结果,证明了该方法在不同应用场景下的通用性和灵活性。

2025-02-18

大模型清华大学手把手教你如何使用DeepSeek(内附清华大学官方资料)

大模型清华大学手把手教你如何使用DeepSeek(内附清华大学官方资料)

2025-02-11

大模型清华大学手把手教你如何使用DeepSeek(内附清华大学官方资料)

大模型清华大学手把手教你如何使用DeepSeek(内附清华大学官方资料)

2025-02-11

大模型DeepSeek-R1 论文原文翻译

大模型DeepSeek-R1 论文原文翻译

2025-02-07

聚类实例数据集 - 电商数据集

聚类实例数据集 - 电商数据集

2025-01-17

kaggle平台Wine Quality 数据集

kaggle平台Wine Quality 数据集

2024-12-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除