自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(946)
  • 收藏
  • 关注

原创 Grok 3证明黎曼猜想,训练遭灾难性事件?数学家称不夸张,两年内AI将解出千禧年难题

一个函数f:Q→Q被称为aquaesulian函数,如果对于每个x,y∈Q,满足以下性质:f(x+f(y))=f(x)+y或f(f(x)+y)=x+f(y)。它就像大海中的灯塔,为数学领域的发展指明方向:很多数论和复变函数领域的工作都基于黎曼猜想为真这个前提,因此一旦证明了黎曼猜想,许多其他工作也会得到完整的证明。而这97轮对话,可以说构建出了一个极难的NP完全问题,其中一些实例在时间复杂度低于O(2^n)(即穷举搜索)的情况下是不可解的,也就是说,证明结论为P≠NP。注意,我们还将α重命名为x。

2025-02-19 10:46:48 599

原创 马斯克:Grok-3 一周内发布!「聪明得吓人」

在最新的采访中,马斯克信心满满地宣布:同时马斯克还表示这个模型能够提出「而此前,马斯克就宣称xAI 将发布超越DeepSeek 的模型:看来AI 圈又要热闹起来了!

2025-02-19 10:26:53 122

原创 如何测量大模型是否过度思考?兼看最近GraphRAG及多模态RAG 进展

本文主要回顾了最近今天RAG的一些进展,包括GraphRAG,多模态RAG,这些都有一些往小了做的思路。另外,关于推理大模型的过度思考问题也是一个可解释的话题,但具体的结论,跟测试方式跟测试标注有关,这个是我们能够学到的点,如何建模一个评测任务。

2025-02-18 11:16:33 622

原创 免费不卡顿!解锁满血版DeepSeek R1的终极指南,还有超百款接入应用等你体验!

011. 直接用大厂集成了R1的产品就像腾讯宣布接入DS大模型一样,腾讯的AI助手元宝以及AI代码助手ima最近都接入了满血版的DeepSeek。很多大厂已经官宣把DeepSeek R1集成到自家产品里了,直接去用就行!比如:腾讯元宝:yuanbao.tencent.com/chat360纳米AI:bot.360.com天工AI:www.tiangong.cn这些产品都内置了R1的“深度思考”能力,直接用就完事了,省心省力!2. 通过云服务平台用纯净版R1。

2025-02-18 11:14:08 705

原创 在手机上也能本地运行DeepSeek了?!

最近科技圈上演了一出"速度与激情"大戏——当硅谷还在讨论ChatGPT各种“挤牙膏”时,咱中国人自己的本土团队,直接把AI战场搬到了异次元!一夜之间,中国AI大模型平地惊雷、横扫硅谷,迅速引爆全球科技圈。DeepSeek-R1不仅性能媲美OpenAI O1,更做到了,它的发布,让我们可以更好的使用开源大语言模型运行推理任务。不过,因为DeepSeek实在是太火了,导致大家总是会遇到的情况……今天我要给大家分享一个更有意思的事情——。硬生生把原本要机房供着的AI巨兽塞进了手机芯片!

2025-02-17 11:57:23 1517

原创 3个集成DeepSeek的神器,简直无敌!

DeepSeek R1模型在GitHub掀起了开源热潮,犹如一颗投入平静湖面的巨石,激起层层创新的涟漪。它的出现,为开发者们打开了新的思路之门。而LangBot平台更是一大亮点,它支持多平台的AI助手,宛如一位全能的智者,穿梭于不同平台之间。它巧妙地解决了团队沟通的难题,让信息传递更加顺畅无阻,助力团队迈向高效工作的新征程。在这个数字化时代,它无疑是推动工作效率提升的有力引擎,为各领域带来了全新的可能与活力。

2025-02-17 11:55:39 734

原创 Nature Communications | 多通道学习将结构层次集成到上下文相关的分子表示中

今天分享的是一篇发表在nature communications期刊上的论文:“Multi-channel learning for integrating structural hierarchies into context-dependent molecular representation”,本文介绍了一种创新的多通道学习框架,用于整合分子结构层次信息,生成上下文依赖的分子表示,以提升分子性质预测的准确性。1.介绍。

2025-02-15 10:52:25 907

原创 Cursor + MCP 查询数据库快速生成用户报告

在开始项目之前,我们需要进行一些初始化工作以确保项目的顺利进行。首先,我们需要创建一个新的 Next.js 项目。这条命令将会创建一个名为的新项目,并且会自动安装所有必要的依赖包。为了测试和开发,我们需要一个可用的数据源。推荐使用 Docker 来快速启动一个 MySQL 数据库实例,并添加一些测试数据。这可以通过以下步骤完成:安装 Docker 并启动 Docker 服务。使用 Docker 命令拉取 MySQL 镜像并启动一个容器实例。

2025-02-15 10:48:36 1055

原创 Qwen2.5-Max全面拥抱DeepSeek技术路线

Scaling Law(缩放定律)**。然而,无论是密集模型还是专家混合(MoE)模型,研究和工业界。**通义千问团队研发超大规模的**,一个经过超过,并进一步通过精心策划的。**稠密模型 or MoE模型__****来处理输入数据,优化计算资源使用,提高整体效率和效果。****大模型厂商相继,这就像当年移动互联网时代,****?**强化学习**(RLHF):通过收集人类对模型输出的反馈,并使用强化学习算法对模型进行优化。**********为什么拥抱DeepSeek技术路线?

2025-02-15 10:46:55 658

原创 免费领!亲测可用的DeepSeek本地部署方案,附清华团队使用手册

Ai 黑科技工具软件: 这些软件拥有强大的功能和创新的算法,无论是提升工作效率,还是满足个人兴趣爱好,都能为你提供独特的解决方案,让你在使用过程中感受到科技的魅力与力量。Ai 副业创业项目: 如果你正在寻找新的发展机会,我们的Ai副业创业项目或许能为你打开一扇新的大门。这些项目结合了当下热门的人工智能技术与市场需求,为你提供可行的商业模式和操作指南,助力你在创业的道路上迈出坚实的一步。Ai 智能硬件设备: 这些智能硬件设备在Ai绘画、Ai问答、Ai音频和Ai视频等多个领域发挥着重要作用,为用户提供了强大的计

2025-02-14 11:36:51 801

原创 DeepSeek从入门到精通教程,《DeepSeek图解10页PDF》从入门到精通教程,附免费PDF!

很多朋友已在本地搭建了DeepSeek,接下来最好了解下DeepSeek基本知识,懂一些基本原理,于是有了今天这个教程《DeepSeek图解10页PDF》,我原创的一个精简小册子。1 为什么要学习这个小册子?1)通俗讲解DeepSeek-R1的教程较少。R1刚发布两周左右,目前介绍DeepSeek部署的文章已有一些,但关于DeepSeek背后基本原理讲解的教程,目前平台相对匮乏。2)懂一些DeepSeek的基本原理非常重要。

2025-02-14 10:57:12 1670

原创 全网爆火!DeepSeek本地部署+支持联网,手把手教程!

之前给大家分享了DeepSeek本地部署的内容,有友友提到了想要使用联网功能,毕竟能联网才能获取最新的知识,大模型的回答也将更加精准。那我当然是,经过一番折腾,搞定!,它是一款开源浏览器扩展程序,可为你的本地AI模型提供侧边栏和可视化界面,允许你从任何网页与大模型模型进行互动。1、支持深度配合Ollama本地AI模型的Web UI(可视化界面),支持可视化交互操作2、支持本地部署大模型的联网搜索功能3、支持API大模型的接入和联网搜索功能4、支持Chrome、火狐、Vivaldi等多种浏览器。

2025-02-13 10:33:26 2995 1

原创 爆火的AI自动化操控浏览器神器!支持断言缓存,可视化报告助力调试,你用过吗?

在数字化浪潮汹涌而来的当下,浏览器已然成为我们生活中不可或缺的必需品。它宛如一扇通往广阔信息世界的大门,承载着无数的精彩与可能。而Midscene AI浏览器助手,恰似一把神奇的钥匙,能为我们开启高效浏览的新境界。只需一句提示词,它便能轻松简化那些繁琐无比的操作。让我们在浏览网页时,不再被复杂的流程所困扰,能够更加顺畅地穿梭于各类信息之间。它就像一位贴心的智能伙伴,时刻准备着为我们提供便捷与高效,助力我们在数字化时代中畅享浏览的乐趣,收获更多有价值的内容。

2025-02-13 10:30:33 572

原创 DeepSeek-TS+: MLA-Mamba及GRPO用于多序列预测统一框架

在这个实验中,我们的目标是预测每种产品在未来5天内的平均销售额。使用AR(1)过程结合产品特定的噪声和偏移生成合成销售数据,生成一个现实的600天数据集。目标被定义为预测范围内的平均销售额。数据被归一化,然后按时间顺序划分(前80%用于训练,剩余20%用于验证),以确保时间外评估且没有任何泄露。我比较了四种预测方法。首先,我使用了一个受GRPO启发的模型,该模型结合了扩展的MLA模块、GRU编码器和额外的策略分支。

2025-02-11 13:31:42 1106

原创 DeepSeek-R1-Zero不存在顿悟时刻?华人团队揭秘真相:或只因强化学习

(2) 在数学问题中对R1-Zero的再现,以研究输出长度与自我反思之间的关系。在基础模型的响应中,发现了浅度自我反思现象(Superficial Self-Reflection,SSR),但这种自我反思带来的最终答案不一定正确。截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。最后发现,模型响应长度的变化主要是取决于基于规则的奖励,开始鼓励格式化(图5左侧中的紫色部分),然后转向正确性(图5左侧中的蓝色部分),这验证了最初的猜测。

2025-02-11 13:30:06 492

原创 FinSphere:基于LLM的股票分析框架(数据集、评估框架、分析代理)

当前金融领域的LLM存在两大局限:缺乏深度的股票分析能力和缺乏客观评估指标。本文提出FinSphere,一个对话式股票分析代理,包含三大模块:Stocksis:由行业专家策划的数据集,提升LLM的股票分析能力。AnalyScore:系统化的股票分析质量评估框架。FinSphere:能够生成高质量股票分析报告的AI代理。实验表明,FinSphere在分析质量和实际应用方面优于一般和特定领域的LLM及现有代理系统,尽管后者具备实时数据访问和少量指导。

2025-02-07 17:18:07 783

原创 算网大脑加持!移动云全面上线DeepSeek!

新年伊始全球AI行业持续风起云涌的问世再度颠覆人们对于AI的认知凭借低成本高性能的优势DeepSeek有望激发一波新的创新浪潮作为国内领先的云计算服务商实现了不管是小型初创团队还是大型企业集团都能精准匹配需求通过深度集成融合DeepSeek模型搭载自研COCA算力原生平台能实现**“开箱即用”**也将全面升级用户可选择DeepSeek内核实现DeepSeek V1、V2、V3、R1全家桶齐上阵!无论你是想玩转经典模型,还是尝鲜最新R1黑科技,移动云通通安排!

2025-02-07 16:49:39 847

原创 飘了!DeepSeek本地部署,保姆级教程直接起飞!

这个春节AI圈什么最火?那必然是DeepSeek了,没有之一!可能在这之前很多人都没听过这个名字,但作为中国AI领域的一匹黑马,它不仅在苹果商店超越了ChatGPT,更让美国科技巨头们坐立不安,甚至…DeepSeek的中文名叫"深度求索",是由杭州深度求索人工智能基础技术研究有限公司开发的人工智能大模型。“深度求索”这个名字里藏着团队的理想和追求:不只是回答问题,而是要真正理解和探索,简单点说就是让AI学会像人类一样思考。最关键的是DeepSeek性能上完全可以媲美ChatGPT,而且免费使用!

2025-02-06 18:21:39 1542

原创 用 DeepSeek R1 卡顿?三种方案帮你来解决!(含本地部署)学会20天赚一万五

春节前,DeepSeek 发布了V3 和深度思考 R1版本,火出了圈。线上服务受到大规模恶意攻击,攻击手段复杂多样,包括暴力破解攻击和分布式拒绝服务攻击。整个过年期间,好多朋友在使用DS的官方App和网页的时候,多次遇到“服务器繁忙,请稍后重试”的错误提示。虽然这两天情况有所好转,但是我们有没有办法用上流畅的DS呢?既然 DeepSeek 系列大模型都是开源的,那不如换个思路,用算力资源部署的DS的大模型就可以了。介绍三种方案如何部署自己的DS:一、使用国内云厂家计算资源快速部署;

2025-02-05 16:26:20 3661 1

原创 一文揭秘 DeepSeekMoE:技术与优势全解析

DeepSeekMoE是一种创新的大规模语言模型架构,旨在通过高效的计算流程和优化的技术设计,在保持高性能的同时显著降低计算成本。它融合了专家混合系统(Mixture of Experts, MoE)、多头潜在注意力机制(Multi-Head Latent Attention, MLA)和RMSNorm归一化策略,致力于在模型规模与计算效率之间找到新的平衡点。DeepSeekMoE框架作为一种创新的大规模语言模型架构,凭借其独特的技术设计和优化策略,在模型规模与计算效率之间找到了新的平衡点。

2025-02-05 13:48:31 1203

原创 提升Agent系统与AI推理性能

计算扩展与为训练和运行AI模型提供更多资源,如处理能力和内存有关。简而言之,训练时间计算扩展适用于预训练,模型学习一般模式,以及后训练,其中基模型经过额外的训练,如强化学习(RL)或监督微调(SFT)以学习更具体的额外行为。相比之下,测试时间计算扩展在推理时应用,即在做出预测时,为模型提供更多计算能力,通过探索多种潜在解决方案来“思考”,在生成最终答案之前。重要的是要理解,测试时间计算扩展和训练后都可以帮助模型在产生最终响应之前“思考”,但这些方法以不同的方式实现。

2025-02-05 11:39:51 870

原创 7000字!一文了解深度学习超参数

在深度学习中,参数和超参数是两个核心概念,它们在模型训练过程中扮演着不同的角色。。它们是模型内部的配置变量,通过训练过程中的优化算法(如梯度下降)自动调整,以最小化损失函数。参数的学习是模型训练的核心目标,其目的是让模型能够对新的数据做出准确的预测。。超参数不是从数据中学习得到的,而是根据经验和领域知识预先设定的。它们包括学习率、批次大小、网络层数、优化器选择等。超参数的选择对模型的训练速度、收敛性、泛化能力等方面有着重要影响。:参数是通过训练数据自动学习得到的,而超参数是手动设置的。

2025-01-28 10:30:00 913

原创 你也能测! 简单扑克游戏, Deepseek 唯一全对, 13大模型PK

Deepseek R1 是 Deepseek 推出的第二代推理模型,基于大量强化学习(RL)训练并加入冷启动数据(Cold-start data)进行优化,解决了其前代模型 Deepseek R1-Zero 的一些问题,如无监督的强化学习可能导致的语言混合和可读性差等缺陷。Deepseek R1 在数学、编程及推理任务上展示了卓越的能力,与 OpenAI 的 o1 系列模型比肩,甚至在一些基准测试中超越了 OpenAI o1-mini。

2025-01-28 07:30:00 2273

原创 百川智能最新医学大模型论文-利用先进的患者模拟器探索医疗“问诊-诊疗“关系

引言作为唯一将医疗作为发展重心的大模型独角兽,百川智能在加速医疗场景大模型的应用布局,2025年1月份也发布了最新的医学大模型论文论文: https://arxiv.org/abs/2501.09484开源Github:摘要在线医疗咨询 (OMC) 限制医生仅通过查询收集患者信息,这使得本已复杂的连续诊断决策过程更具挑战性。最近,大型语言模型的快速发展证明了改变 OMC 的巨大潜力。然而,大多数研究主要集中在在信息相对充足的条件下提高诊断准确性,而对咨询过程的 “询问 ”阶段的关注有限。

2025-01-27 11:15:00 1078

原创 用于高频交易中实时中间价预测的自适应学习策略AI引擎

高频交易(HET)改变了现代金融市场,使可靠的短期价格预测模型变得必不可少。在本文我们提出了一种新的方法来预测中间价格,使用来自纳斯达克的一级限价订单(LOB)数据。重点关注2022年9月至11月期间标准普尔500指数中的100只美国股票。在我们之前的径向基函数神经网络(RBFNN)工作的基础上,我们引入了自适应学习策略引擎(ALPE)——一种基于强化学习(RL)的智能体,设计用于无批量、即时的中间价格预测。RBFNN利用了基于平均减少杂化(DI)和梯度下降(GD)的自动化特征重要性技术。

2025-01-27 07:00:00 724

原创 没有工具,Agent啥也不是?

正如合适的工具能大大提高人类的生产力,工具也能让AI模型完成更多任务。现在很多模型提供商都支持工具使用,这个功能通常被称为函数调用(function calling)。未来,我们可以期待更多!

2025-01-26 08:30:00 1026

原创 Emoji2Idiom:对多模态大型语言模型的神秘符号理解进行基准测试

首先,从互联网和公开资源中获取与表情符号相关的原始数据,包括游戏截图、视频片段和网络数据库,同时通过文本生成相应的表情符号序列以扩充数据多样性。利用算法进行初步数据过滤,删除重复、缺失或质量低下的样本,同时检测并剔除不符合伦理要求(如暴力、歧视性内容)的数据。由语言和图像专家进一步审核数据,确保表情符号与文本之间的语义关联清晰,并剔除语义模糊、不符合常规语言使用习惯或过于复杂的样本。对表情符号和文本配对进行标准化处理,避免过多重复映射,调整或替换频繁出现的谐音字符映射以提高数据多样性。

2025-01-26 07:30:00 855

原创 大模型训练之训练数据准备,即怎么准备高质量的训练数据集?

训练数据集的质量是大模型的主要生命线之一,数据集质量直接影响到模型的性能和效果训练一个高性能且表现较好的模型是由多种因素决定的,比如模型的设计,损失函数与优化函数的实现,训练方式的选择;当然也包括高质量的训练数据。那么,怎么才能得到一个高质量的训练数据集呢?这个就是我们今天需要讨论的问题。‍‍‍‍‍‍‍‍训练数据集的准备机器学习和深度学习模型的性能高度依赖于训练数据的质量和数量;训练数据的准备工作对于构建一个高效可靠的模型至关重要。

2025-01-24 10:00:00 1319

原创 35页综述:Agentic RAG七大架构首次曝光!

(后续几乎是原文翻译,实际写的就是这么简单~)

2025-01-24 09:15:00 1028

原创 7个用于运行LLM的最佳开源WebUI

无论是希望将AI大模型集成到业务流程中,还是寻求企业客户服务自动化,亦或者是希望创建一个强大的个人学习工具。可能都需要考虑数据安全、灵活度以及更具有可控性的使用和开发基础。值得考虑的一个方案是:将大模型(LLM)私有化并且创建一个好用的LLM WebUI系统。下面,我们推荐7个出色的开源LLM WebUI 系统。Star:45.7K开发语言:Python、TypeScript\SvelteOpen WebUI是一个可扩展、功能丰富且用户友好的WebUI,旨在完全离线操作。

2025-01-23 11:45:00 8429

原创 AI Agent时代即将到来——硅谷著名投资人Rob Toews对2025年科技发展的十大预测

以上预测表明,2025年将是AI发展的重要一年,尤其是在AI Agent领域。投资者应将目光从纯粹的大模型投资转向基于大模型的AI Agent应用,这些应用将真正推动AI技术的普及和应用,并带来巨大的商业价值。

2025-01-23 08:15:00 781

原创 AI大模型时代,人才的需求已经变了

我们正处在一个微妙的时间点上:爆发两年的生成式 AI 正在进入大规模应用阶段。一方面在 AI 领域里,技术人才成为了极度稀缺的「资源」;另一方面,在各个落地行业内,人们也在面临困境。大模型重塑所有行业的过程,既是机遇也是挑战。AI 技术必须落地到具体的场景中,才能实现它真正的价值。然而,现实却给了我们当头一棒 —— 承载期望的 Killer App 依然未能现身。对于抖音、快手这些国民级内容社区,AI 并未带来预期中的实质性变革。

2025-01-22 12:45:00 1327

原创 AI与大数据的深度结合:驱动决策的革命性力量

AI与大数据结合的三大驱动力,不仅实现了对数据的高效利用,还推动了决策的智能化、实时化与自动化。这种协同模式正在不断解锁数据的潜在价值,引领各行各业迈向智能决策的新时代。在未来,随着数据规模的进一步扩大和AI技术的持续突破,这种结合将释放出更大的能量,为全球经济和社会发展注入强劲动力。

2025-01-22 11:00:00 1474

原创 LlamaFactory:解锁LLM微调效率的终极神器!

LLaMA Factory 是一个简单易用且高效的大型语言模型(Large Language Model)训练与微调平台。通过 LLaMA Factory,可以在无需编写任何代码的前提下,在本地完成上百种预训练模型的微调,框架特性包括:模型种类:LLaMA、LLaVA、Mistral、Mixtral-MoE、Qwen、Yi、Gemma、Baichuan、ChatGLM、Phi 等等。

2025-01-22 07:30:00 897

原创 大模型应用系列:从MLOps到LLMOps

【引子】在IT领域中,DevOps 是软件工程效能的重要方法论以及工具集, 在人工智能领域同样如此。MLOps 和 LLMOps 都是管理机器学习系统的方法。MLOps 致力于解决机器学习生命周期的生产问题,促进数据科学家和运营专家之间的合作,提高机器学习系统的效率和质量。LLMOps 通过结合“终身”学习扩展了 MLOps,使机器学习模型能够随着时间的推移不断地从新数据中学习和改进,从而使数据快速变化的应用程序受益。

2025-01-21 12:15:00 1003

原创 8000字文章的AI Agent全解析:工具、规划与失败模式的深度探索

AI Agent 由其所处的环境(例如游戏、互联网或计算机系统)和它通过可用工具可以执行的操作集合构成。这一双重定义是理解 Agent 如何工作的基础。👨‍💻。

2025-01-21 07:15:00 668

原创 smolagents:Hugging Face 开源的Agent框架,用代码驱动 Agent 的新思路

Hugging Face 向来对开发者用户理解深入,加上它社区的优势,它发布的很多框架都能够获得不错的反响,

2025-01-20 12:00:00 2075

原创 RAG应用在得物开放平台的智能答疑的探索

RAG(检索增强生成)指Retrieval Augmented Generation。这是一种通过从外部来源获取知识来提高生成性人工智能模型准确性和可靠性的技术。通过RAG,用户实际上可以与任何数据存储库进行对话,这种对话可视为“开卷考试”,即让大模型在回答问题之前先检索相关信息。

2025-01-20 07:45:00 1640

原创 科研界的“哥白尼时刻“已到来!AMD的Agent Laboratory能自己查文献、写论文、整代码

🌈重磅:发表于昨天的论文《Agent Laboratory: Using LLM Agents as Research Assistants》对于科研界具有划时代意义,过去几周才能完成的科研任务现在仅需20分钟到一两个小时左右(不同LLM),花费2-13个美金的Token即可完成!惊不惊喜,意不意外?这不仅是一篇关于AI的论文,更是AI对自身能力的一次完整展示和深度剖析。科研领域有了AI的加持进步可能会更迅猛,这个Agent Laboratory高低你都应该试一试!

2025-01-18 09:45:00 568

原创 Structure-CLIP:面向场景图知识以增强多模态结构化表示

大规模视觉-语言预训练在多模态理解和生成任务中取得了显著的性能提升。然而,现有方法在需要结构化表示的图像-文本匹配任务上的表现往往较差,即对对象、属性和关系的表示。As illustrated in Fig. 1 (a), the models cannot make a distinction between “An astronaut rides a horse” and “A horse rides an astronaut”. 这是因为它们在多模态场景中学习表示时未能充分利用结构化知识。

2025-01-18 07:45:00 792

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除