- 博客(1037)
- 收藏
- 关注
原创 【LLM论文详解】首个股票预测 RAG 框架震撼登场,炒股从此不迷茫!
在金融时间序列预测这块,用大语言模型精准预测股票走势特别重要。不过,现在的大模型算法问题挺明显的。不管是学术界还是行业内,大家都特别关注怎么让大模型在处理金融数据时表现得更好。但目前这些模型,在推理效率和捕捉金融数据复杂模式的能力上都不太够。尤其是从海量的金融时间序列数据里精准提取关键信息,用来做可靠的预测,这里面还有好多问题没解决呢,这可大大限制了金融预测的准确性和实用性。现在,研究和实际应用都碰到了不少难题。第一,金融时间序列数据量特别大,还到处都是噪声。
2025-02-19 20:15:16
142
原创 推荐一个支持Deepseek模型的AIOPS平台
Keep 是一个开源的 AI 驱动的监控和告警平台,旨在通过自动化和智能化手段简化运维工作,帮助团队更高效地管理和监控复杂的基础设施和应用。它结合了传统的监控工具和现代的人工智能技术,实现了 AIOps(人工智能运维) 的核心功能,如异常检测、根因分析、告警降噪和自动化修复。Keep 的核心目标是通过 AI 技术减少运维团队的负担,提高系统的可靠性和可维护性,同时降低误报和漏报的风险。并且支持deepseek模型.
2025-02-19 20:14:18
190
原创 通过 DeepSeek-r1 搭建 Gerrit 系统
概述今天就通过 DeepSeek-R1 的协助,来搭建一套最新版本研发使用的 Gerrit 系统。
2025-02-19 20:12:48
134
原创 7个用于改进RAG中检索的指标
检索系统不仅用于RAG,还广泛应用于网络和企业搜索引擎、电商产品搜索、个性化推荐、社交媒体广告检索、档案系统、数据库、虚拟助手等领域。这些检索指标有助于评估和改进性能,从而更好地满足用户需求。
2025-02-19 20:10:14
52
原创 X-R1:3090也能训7B模型!开源框架X-R1把训练成本打下来了:10美元训出企业级LLM
今天要介绍的 X-R1框架 ,正在用强化学习重构训练规则!这个由华人团队研发的开源工具,首次让3090显卡集群实现7B模型高效训练,1小时成本仅需9.9美元。已有Early adopters用它完成:✅ 32B模型在64G显存环境分布式训练✅ 企业级对话模型微调成本降低87%✅ 单卡实现R1-Zero算法的在线采样优化是时候打破算力垄断了——你的显卡准备好了吗?
2025-02-18 19:51:40
543
原创 VLLM 本地部署 DeepSeek-R1 671B FP8
使用 Ubuntu22 镜像,并安装 GPU 550 驱动和 CUDA12.4部署机器需求:H20-3e 141G, 单机8卡可以部署满血版L20 48G, 3机共24卡, 有点慢, 15token/sH800 80G, 2机共16卡, 速度较快, 30token/s检查几台机器互通, 并记录IP地址:设置环境变量:启动ray:选一台作为master, 其IP为其他都是worker升级NCCL至2.25.1, 2.21.5版本有问题。
2025-02-18 19:50:26
633
原创 手把手部署!win11系统把DeepSeek-R1蒸馏-Qwen-7B推理起来!vllm高吞吐,附模型下载
人的专注力只有10分钟,今天内容非常简单:① 推理环境与准备② 全尺寸下载DeepSeek1.5B/7B/8B/14B/32B/72B等③ 本地跑起来,兼容openai api格式推理④ 将模型接入RAG-langchain中第一部分:推理环境与准备本次实践全程使用win11系统,具体环境与版本,是这样的:操作系统:win11-wsl2显卡:RTX3090*24G*2张Python版本:3.10依赖管理:conda推理工具:vllmcuda版本:12.4。
2025-02-17 19:45:43
1012
原创 【教程】基于DeepSeek-R1的个人AI知识库,全本地部署,可断网使用
从ChatGPT上线开始,我就有了一个想法,打造一个个人知识库,它可以充当我的第二大脑,记住我的尽量多的信息(包括隐私信息)。无论是我每天的琐碎事务,还是重要的决策和回忆,它都能存储并快速检索。当我问它“我去年5月做了什么?”时,它不仅能够从知识库中找到当时的记录,还能结合上下文和细节,帮助我回忆起那些可能遗忘的瞬间。但要实现这个想法,用在线服务肯定是不行的,我需要它完全本机运行。现在,有了可完全本机部署的deepseek-r1和bge-m3,加上界面优雅的Cherry Studio,是时候实现它了。
2025-02-17 19:43:24
801
原创 与DeepSeek生态共振!卫宁健康医疗大模型、智能助手新版发布
2025年元旦,卫宁健康提出“AI Everywhere 全场景赋能”的发展方向,产品设计以AI为核心,将承担数据专家和AI专家的新角色。恰逢DeepSeek的创新大大加速了AI在医疗行业的应用。此次发布医疗大模型WiNGPT 2.8和医护智能助手WiNEX Copilot 2.1,全面对接DeepSeek,助力卫宁健康AI医疗突进之路进入快车道!DeepSeek已然成为下一场AI变革的焦点。随着技术成熟迭代,模型竞相追赶,彼此鸿沟缩小,从“模型为先”到“应用为王”成为新的发展趋势。
2025-02-17 19:42:37
607
原创 DeepSeek让我告别手动处理Excel,1分钟搞定500行数据!
最近在做一个需求,需要对网站上的功能针对部分角色做权限控制。然而,我手头并没有一个完整的角色清单,也不知道要限制的角色名称叫什么。于是,我向产品同学求助🤔:“可以在xx系统里导出一份完整的权限清单吗?产品同学非常爽快地答应了,很快给了我一份 500 多行的 Excel 文档。我打开一看,发现虽然权限种类并不多,大概只有20个,但每个权限对应了很多用户,导致文档内容非常冗长,有 500 多行。
2025-02-17 17:24:23
538
原创 为啥大模型要设计成预训练和微调两个阶段?
预训练是指使用海量的未标注数据对模型进行训练,使其学习到通用的知识和模式。这些数据通常来自书籍、文章、网站等多种来源,涵盖了广泛的领域和语言结构。通过预训练,模型能够掌握语言的底层规律,如词汇语义、句法结构,以及不同场景下的通用模式和上下文关系。泛化能力是指模型从训练数据中学习到的知识和模式,能够应用到新的数据、任务或环境中的能力。简单来说,就是模型在面对未曾见过的情况时,依然能够做出合理的判断、预测或生成合适内容的能力。
2025-02-17 17:06:14
551
原创 完全使用deepseek自动填写多个Excel工作表
我们试试deepseek能不能实现更复杂的VBA程序。工作簿中有4个工作表,其中1个是信息汇总工作表,用于提取信息;有3个作为模版工作表,用于填写,且其中1个需根据查找的特定项的条目数生成多个工作表,另外2个直接在其上填写查找到的相关信息,有多少条就填写多少条。具体如下图1至图4所示。下图1为“信息总表”,汇总了所有信息。后面要根据指定的“使用单位名称”查找相应的信息。图1下图2为作为模版的“委托单”工作表,根据查找的“使用单位名称”填写,查找到多少条信息就要填写多少个“委托单”工作表。图2。
2025-02-17 17:04:50
753
原创 “RAG界的deepseek”开源-企业复杂私域知识理解与推理框架PIKE-RAG
PIKE-RAG框架的设计目标是提供一个灵活且可扩展的RAG系统,应对工业应用中复杂多样的任务需求。框架的核心是通过有效的知识提取、理解和组织,以及构建连贯的推理逻辑,解决了RAG系统在工业应用中的局限性。下面来看下微软开源的PIKE-RAG框架及其实现过程,供参考。
2025-02-16 10:45:00
932
原创 探究理解大语言模型的训练和推理复杂度
先来看看最基本的 Self-Attention为了最终计算出 , 需要一步一步来, 这里面就产生了计算时中间结果占用内存. 我们知道计算机 (无论是 GPU 还是 CPU) 的内存都是分级的, 如果能够优化内存占用, 就可以尽可能减少内存的存取, 这个对于 latency 的降低帮助很大.
2025-02-15 15:20:18
722
原创 医疗大模型从小事做起:DeepSeek在医院适用场景分析
Ds的本地部署和落地需要向各级申请资源,有投入就要有产出,如何从诸多想法中筛出容易落地和出成果的项目,为后续追加投资和续写故事提供充足的依据?举两个例子供大家参考。前期以[《医疗大模型从小事做起:协同办公》]为题,讨论过公文处理。但当时写得比较大,如今看到Ds可以快速部署落地,这件事也可以聚焦为公文处理。公文处理有两个最直接特点:一是严谨,二是实用。严谨不仅仅是格式和结构上的规范,更要求整体内涵不能出现偏差,不能出错遗漏甚至引发舆情。实用性强调解决具体问题。
2025-02-15 14:35:38
1018
原创 本地部署DeepSeek-R1大模型
搭建的过程对新手非常友好,DeepSeek的开源特性可以在其基础上进行二次开发,极大降低门槛和成本,还促进了AI技术的快速传播和应用。本地部署更多的作用是保护敏感数据,并且可以个性化定制,比如搭建私人知识库。如果没有这个需求还是网页版效果更好,毕竟个人搭建高参数模型成本比较高。
2025-02-15 14:33:24
859
原创 开源22万条DeepSeek R1的高质量数据!你也能复现DeepSeek了
DeepSeek 在海内外搅起的惊涛巨浪,余波仍在汹涌。当中国大模型撕开硅谷的防线之后,在预设中总是落后半拍的中国 AI 军团,这次竟完成了一次反向技术输出,引发了全球范围内复现 DeepSeek 的热潮。DeepSeek-R1 虽然开源,但也没有完全开源,训练数据、训练脚本等关键信息并未完全公布。Open R1 宣称要做到完全开放复现 DeepSeek-R1,补齐 DeepSeek 所有未公开的技术细节。Open R1 项目刚刚启动不过几周,他们已经完成了:GRPO 实现训练与评估代码。
2025-02-14 19:21:09
753
原创 清华一作1B暴打405B巨无霸,7B逆袭DeepSeek R1!测试时Scaling封神
如表1所示,DeepSeek-PRM-Data的每个响应平均token数和每个步骤平均token数都大于Mistral-PRM-Data,这表明RLHFlow-PRM-Deepseek-8B的训练数据比RLHFlow-PRM-Mistral-8B的更长。这可能导致对输出长度的偏差。为分析这些要点,团队使用Llama-3.1-8BInstruct作为策略模型,RLHFlow-PRM-Mistral-8B和RLHFlow-PRM-Deepseek-8B作为PRM,进行了一项初步的案例研究。
2025-02-14 19:20:09
843
原创 开源版Deep Research,一句话创建Agent工作流帮你完成电脑上的复杂操作,股票分析也轻松实现
Eko 是一个开源的 JavaScript 框架,帮助开发者快速构建从简单命令到复杂工作流的智能代理。它支持全平台运行,无论是计算机还是浏览器环境都能完美适配。Eko 提供了从浏览器自动化、系统操作到多步骤任务编排的强大功能,同时支持访问私有网络资源,开发效率高且任务复杂度高。通过简单的代码,开发者可以轻松实现如网页数据抓取、文件管理、自动化测试等任务。
2025-02-14 19:19:04
649
原创 医学大模型在临床问题解决中的局限性源于其僵化的推理—Stanford大学等
大型语言模型(LLMs)在医学问答(QA)基准测试中达到了人类水平的准确性。然而,它们在应对开放式临床场景中的局限性最近已被揭示,引发了对LLMs在不同真实世界医学任务中推理的稳健性和泛化能力的担忧。为了探究潜在的大型语言模型在临床问题解决中的失败模式,我们提出了医学抽象与推理语料库(M-ARC)。M-ARC通过设计利用“定势效应”的场景来评估临床推理——即由先前经验引发的思维固定——针对大型语言模型从其训练数据中产生的僵化模式匹配的归纳偏见,而不是进行灵活推理。
2025-02-14 19:17:39
708
原创 RbFT:针对RAG中检索缺陷的鲁棒性微调
总体而言,这篇论文针对RAG系统在面对检索缺陷时的脆弱性问题,提出了一种有效的鲁棒性提升方法RbFT,并在多个数据集上验证了其有效性,为实际应用中提高RAG系统的鲁棒性提供了有价值的解决方案。
2025-02-13 19:39:37
633
原创 StockMixer:上海交大推出预测股票价格的 MLP 架构,通过捕捉指标、时间和股票间的复杂相关性,预测下一个交易日的收盘价
基于多层感知器(MLP),通过指标、时间和股票混合处理股票数据。:捕捉股票指标、时间和股票间的复杂相关性,预测下一个交易日的收盘价。:适用于量化投资、风险管理、算法交易和投资组合优化等场景。
2025-02-13 17:09:55
725
原创 学习量化有什么用? 万物皆可量化
背景:最近一些同学加我,第一句:我要学习量化交易赚钱。推荐量化软件给我,我要赚钱。每次我都耐心地解释,量化软件只是工具,赚钱靠的是策略。就有一些同学问,既然不一定赚钱,学习量化有什么用?以下是正文:随着金融市场的不断发展,量化交易逐渐成为投资者关注的焦点。许多初学者在接触量化交易时,第一反应往往是想要通过量化软件快速获利。然而,量化交易不仅仅是使用软件工具,更重要的是背后的策略和思维方式。
2025-02-13 17:08:56
648
原创 Chatgpt教我如何炒股--终于知道为什么量化那么厉害了
(000300)——龙头企业指数,适合稳健投资(000905)——中盘成长指数,适合长期投资(000016)——蓝筹权重股,适合低估布局(399006)——成长型科技股,波动较大一般来说,沪深300更适合作为宽基投资的核心。沪深300指数的历史估值和点位可以作为。目前你关心的是“✅(基于历史PE分位数)📌,处于历史低估区域,这意味着。我们来看沪深300的✅内分批买入3600点以下 → 大胆加仓3700点 → 建立基础仓位4000点 → 继续持有,看市场情况加减仓✅ 适合长期投资,不纠结短期波动。
2025-02-13 17:07:59
1936
原创 Ambient Agent: 让 AI 主动工作的新范式
Ambient Agent 代表了一种全新的 AI 助手范式,其本质是一个能够在环境中持续存在并主动工作的 AI Agent。与传统的被动响应式 AI 不同,Ambient Agent 具有自主性、持续性和环境感知能力。这种 Agent 系统最显著的特征是其主动性。它不需要等待用户的明确指令就能开始工作,而是通过持续监控环境中的各种信号来主动发现和处理任务。比如,它能够自动监控你的邮箱,识别重要邮件,并在适当的时候提醒你或者采取行动。更重要的是,Ambient Agent 可以同时处理多个任务。
2025-02-13 17:06:59
894
原创 deepseek本地部署最简教程
随着人工智能技术的飞速发展,大语言模型(Large Language Models, LLMs)逐渐从云端走向本地,为开发者、研究者和技术爱好者提供了更灵活、更私密的应用可能。国产DeepSeek 作为一款高效且功能强大的开源大模型,凭借其毫不逊色于Chatgpt的推理能力和对中文场景的深度适配,成为许多用户探索本地智能化的首选工具。然而,对于非专业开发者或刚接触本地部署的用户而言,复杂的配置流程、环境依赖和资源管理往往令人望而却步。
2025-02-12 19:53:12
1401
原创 优化AI Agent系统推理能力:探索DeepSeek-R1、OpenAI o1/o3及训练/推理扩展的新路径
过去一年,生成式 AI 的应用和 AI Agent 的开发呈现爆炸式增长。LangChain 的报告显示,51% 的受访者在生产环境中已经使用了 AI Agent,而 Deloitte 的报告预测,到 2025 年,至少有 25% 的使用生成式 AI 的企业将启动 AI Agent 的试点或概念验证项目。。
2025-02-12 19:51:58
828
原创 DeepSeek做PPT,太快了
今天同事问我 AI 能不能做 PPT,有个述职报告要做,问我能不能帮忙,这时我脑海中的第一画面就是 DeepSeek + KimiDeepSeek 擅长逻辑构建与内容生成,其深度思考能力当前测试下来,不愧为国内No.1,而且还会把中间的思考过程展示出来,大多时候会给出很多我们意想不到的思路。Kimi智能助手的功能又很丰富,其中的PPT助手,就很适合将 DeepSeek 深度思考整理出来内容一键生成PPT优秀的工具 + 优秀的工具 + 我 这相当于 1 + 1 + 1 > 3。
2025-02-12 17:20:15
783
原创 【AI】Ollama+DeepSeek+AnythingLLM打造私有知识库
前天有朋友问我,这个DeepSeek我部署好了,但它怎么训练呢。库。
2025-02-12 17:18:30
988
2
原创 具身导航、一环通达!RING:机器人室内导航通用策略
多任务学习问题:学习跨多个具身实体的导航策略是一个多任务问题。每个具身实体由其配置向量 定义,包括摄像头设置、智能体碰撞器大小、旋转中心等。任务被建模为部分可观测马尔可夫决策过程(POMDP),其中状态空间 和动作空间 是共享的,但观察空间 因具身实体的不同而变化。状态和动作空间:状态 和动作 的下一个状态 取决于当前状态、动作和具身实体参数。观察 是状态和具身实体参数的函数。论文介绍了RING,一种在模拟中训练的、不依赖于特定机器人配置的导航策略。
2025-02-12 17:15:29
632
原创 4090单卡跑满血版DeepSeek-R1,清华团队开源项目再破大模型推理门槛
DeepSeek-R1火遍海内外,但推理服务器频频宕机,专享版按GPU小时计费的天价成本更让中小团队望而却步。而市面上所谓“本地部署”方案,多为参数量缩水90%的蒸馏版,背后原因是671B参数的MoE架构对显存要求极高——即便用8卡A100也难以负荷。因此,想在本地小规模硬件上跑真正的DeepSeek-R1,被认为基本不可能。但就在近期,清华大学KVCache.AI团队联合趋境科技发布的,推理生成速度最高能达到。
2025-02-12 17:14:36
1276
原创 Deepseek提示库(官方文档)
Deepseek官方给出了提示库文档:https://api-docs.deepseek.com/zh-cn/prompt-library/下面举几个例子:文案大纲生成器:根据用户提供的主题,来生成文案大纲。
2025-02-11 15:31:16
1680
原创 32.6k star!RAGFlow智能文档引擎:让文档秒变AI助手,60秒直达核心答案,开源免费来尝鲜
RAGFlow为企业级文档管理和知识应用提供了一个强大而易用的解决方案。通过智能文档处理和精准问答能力,它能够显著提升企业的知识管理效率,降低运营成本。随着技术的不断进步,RAGFlow也在持续更新和优化,为用户提供更好的使用体验。无论是中小企业还是大型组织,都能找到适合自己的应用场景。
2025-02-11 14:37:43
609
原创 DeepSeek R1 在 24GB GPU 上:Unsloth AI 对 6710 亿参数模型进行动态量化
原始的 DeepSeek R1 是一个拥有 6710 亿参数的语言模型,由 Unsloth AI 团队采用动态量化技术处理,实现了 80% 的体积缩减 —— 从 720GB 缩小到最低 131GB —— 同时保持了强劲的性能。当加入模型卸载(offloading)后,该模型可以在 24GB 显存的环境下运行,并实现低 token/s 的推理速度。
2025-02-11 14:35:39
1139
原创 DeepSeek嵌入到Excel,提升10倍工作效率,太牛了!
有粉丝问:能将DeepSeek嵌入到Excel吗?当然可以了,我们需要借助VBA代码来实现,以下的代码都是由DeepSeek自动生成的,我们还需要调用DeepSeek的API,实现在A1单元格中输入数据,然后点击按钮执行,在B1单元格中输出结果的效果,我们来看下具体怎么做的。
2025-02-11 14:34:30
2838
原创 Unsloth:仅需7GB显存就能训练自己的DeepSeek-R1!
GRPO(Group Relative Policy Optimization,群体相对策略优化)是一种强化学习(RL)算法,旨在优化模型的响应质量,而不依赖传统的值函数。这种算法通过一种群体相对优化方法,对模型的每个生成的响应进行评分,并根据这些评分来引导模型的学习过程。
2025-02-11 14:33:17
1169
原创 SFT并非必需!推理模型仅靠RL就能获得长思维链能力,清华CMU团队破解黑盒
DeepSeek-R1慢思考、长推理的表现,展现了训练步骤增加,会导致长CoT的涌现。它通过模拟人类思维逐步推导答案,提升了AI大模型的推理能力和可解释性。?像个黑盒,还没研究明白。来自清华、CMU和IN.AI的研究团队,近期专门探究了长CoT在大模型中的工作机制和优化策略。先把给大家呈上来:SFT并非必需,但能简化训练并提高效率;推理能力随着训练计算的增加而出现,但并非总是如此;可验证奖励函数对增长CoT至关重要;纠错等核心能力基础模型天生自带,但通过RL有效地激励这些技能需要大量的计算。
2025-02-10 21:08:41
763
原创 一文读懂Kimi k1.5:多模态大模型的强化学习进阶之路
通过预测下一个词进行语言模型预训练已被证明在扩展计算规模方面是有效的,但它受到可用训练数据量的限制。扩展强化学习(RL)为人工智能的持续改进开辟了新的维度,有望使大语言模型(LLMs)通过学习基于奖励进行探索来扩展其训练数据。然而,之前已发表的研究并未取得具有竞争力的成果。鉴于此,我们报告Kimi k1.5的训练实践,这是我们最新的通过强化学习训练的多模态大语言模型,包括其强化学习训练技术、多模态数据配方以及基础设施优化。
2025-02-10 21:07:33
1058
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人