一文教你:DeepSeek是什么?DeepSeek-R1是什么?如何使用DeepSeek-R1?

DeepSeek-R1火的飞起,在中日美三个Appstore榜上登顶。还直接干崩英伟达,盘前先死13个点,连带着台积电一起。

几乎一夜之间,所有人都在关注DeepSeek。

一. DeepSeek是什么?

DeepSeek,是一家在2023年7月17日成立的公司深度求索所开发的大模型名称。

2024年1月5日,他们正式发布DeepSeek LLM,这是深度求索第一个发布的AI大模型。

2024年5月7日,他们发布DeepSeek-V2,正式打响中国大模型价格战,当时新发布的 DeepSeek-V2 的API价格只有 GPT-4o 的 2.7%,随后一周时间,国产厂商全部跟进,字节、阿里、百度、腾讯全部降价。

2024年12月26日,DeepSeek-V3正式发布且直接开源,而且训练成本仅为557.6万美元,剔除掉Meta、OpenAI等大厂的前期探索成本,大概是别人的三分之一,并且整体模型评测能力媲美闭源模型,震惊海外,自此,东方的神秘力量彻底坐实。

2025年1月20日,全新的推理模型DeepSeek-R1发布,同样发布并开源,效果媲美OpenAI o1,同时API价格仅为OpenAI o1的3.7%,再一次震惊海外,让Meta连夜成立四个研究小组,让全球算力暴跌,英伟达的神话都岌岌可危。

就是这么一家公司,而深度求索的背后,是著名量化私募幻方基金,而基金的盈利模式非常简单,跟管理规模绑定,固定收取管理规模的管理费和收益部分的提成资金,无论基金涨跌都能赚钱,真正的旱涝保收的行业。

所以,幻方不缺钱,当年赚了钱,在英伟达还没向中国禁售的时候,幻方直接能掏钱搭一个万卡A100集群。

这也让深度求索,让DeepSeek,不以盈利为导向,目标,就是AI的星辰大海。

二. DeepSeek-R1是什么?

DeepSeek-R1,就是最近爆火的主角了。

也是直接让各路美国AI大佬破防的始作俑者。

给奥特曼都在X上开始阴阳了。

很多人拿DeepSeek-R1和GPT4o比,其实是不对的。

首先,GPT4o是个多模态通用模型,可以理解图片、语音、视频,也可以输出语音。多模态往后做,更像Gemini 2,是一个多模态大一统模型,可以理解一切模态,也可以输出一切模态。

而DeepSeek-R1是一个深度推理模型,对标OpenAI的应该是OpenAI o1,而不是GPT4o。

我也让DeepSeek列个了4o和o1的对比表格,大家应该也能一目了然。

而R1,可以直接类比o1,两者在跑分上,几乎相同。

并且已经开源。

HuggingFace 链接:https://huggingface.co/deepseek-ai

论文链接:https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

三. DeepSeek-R1在哪用?

DeepSeek-R1除了面向开发者的开源模型和API,也有面向普通用户的C端版本。

网页版:https://chat.deepseek.com/

当你勾上深度思考功能,此时就是使用R1模型,当你不勾的时候,使用的是类GPT4o的v3模型。

当然他们也有APP版本,你直接在应用商店搜索DeepSeek就好。

跟网页端交互基本一致。目前免费,就是用户增速过快,所以偶尔会有崩溃断网连不上问题,你可以在这个地方,来看DeepSeek的服务器状态。

https://status.deepseek.com/

四. 应该怎么跟R1对话?

首先,我想明确一点的是,DeepSeek-R1是推理模型,不是通用模型。

在几个月前OpenAI o1刚刚发布时,我用通用模型的方式跟o1对话,写了一堆的结构化提示词,得到了极差的效果,那时候我一度觉得这玩意是个垃圾。

而后面,我才发现,其实是我自己的思维惯性,这玩意跟4o不一样,这不是一个很傻的聊天模型。

这是一个能力很牛逼但不知道你想要什么的真实员工。

今年1月也有一篇海外的文章很火,叫《o1 isn’t a chat model (and that’s the point)》。

跟我是完全一样的看法。

所以,有一个点一定要注意,明确你的目标,而不是给模型任务。

例如我们以前在写prompt的时候,总是会写你是一个XXX,现在我的任务是XXX,你要按照1、2、3步来给我执行balabala。

但是现在,请抛弃那些写法。

把你的一切,交给AI,让它去进行自我推理,效果会更好。AI会自动填上那些你没说出口的话,会给你想出可能更好的解决方案。

有一个不得不承认的事实是,我是一个很普通的普通人,而像我一样的很多普通人们,现在大概率是不如AI博学和聪明的。

所以,不如说出你的目标,把他当作一个很牛逼的员工,让他,放手去做。

比如这个case。

只需要表达你是谁+你的目标就OK。

特别是你是谁这个背景信息,非常非常的有用。

所以请抛弃掉一起过往所学习的结构化框架,如果真的需要有一个万能Prompt模板,那就是:

你是谁 + 背景信息 + 你的目标`

背景信息给的越多越能让R1理解你的需求帮助你更好的完成任务。

时刻把他当成:

这是一个能力很牛逼但不知道你想要什么的员工。

最牛逼的提示词技巧,就是没有技巧。

大道至简,重剑无锋。

所以,千言万语汇聚成一句话就是:用人话清晰的表达出你的需求,这就够了。

五. R1输出的内容看不懂?

很多人在用“说人话”这三个字,来表达推理模型和通用模型不一样,这其实有点奇怪。

不过从实用角度来说,这确实是一个能让普通人看懂AI输出专业内容的小技巧。

不过这并不是一个推理模型才有的技巧,因为一直就存在,本质上就是对方不知道你是谁,不知道你的理解能力和你的学识能力是什么水平。

所以我也想分享一个我自己这两年跟AI对话时用的最多的一个小技巧,也是我自己最常用的“人话”prompt:

我是一个小学生。

当你在跟AI对话时,把这句话往前一摆,自降身位,你就会发现,一切都通了,一切都能看的懂了。

比如我想让R1给我解释一下什么叫大模型中的RL用法。

如果不用这句话的话,就会得到这样的解释。

我相信你看到一定脑壳疼。你就是不懂才需要让它给你解释,结果解释了个这。

但是,如果把那个神句加上呢?

反正我是一下子能看了,舒服了多了,可能我就真的是个小学生的水平。。。

当然如果你想稍微进阶一点,就可以说,我是一个初中生,或者,我是一个高中生,一点一点的可控升级。

六. R1的写作很强吗?

R1除了能非常好的做常规推理模型都能做的数学题、代码等等,这次有一个非常非常特别的点是:

中文写作能力强到爆炸。

过往,大家都说,在写作能力上几乎所有的大模型都是众生平等的一坨屎,唯有Claude超出了一坨之外,独立于三界之上。

而这一次,DeepSeek-R1在中文写作和文笔上,已经是独一档的领先了。

而且对于文风的模拟,效果极佳。

比如写一首,李煜风格的诗词。

“以李煜的诗词风格,来写一首我回老家没有朋友玩的感觉”

《虞美人·归乡感怀》
故园旧巷行人少,空有榆钱老。
秋千院落锁苍苔,偶见邻家黄犬过阶来。
重游往日嬉春处,蛛网斜阳驻。
笑谈声远柳风凉,唯剩一庭明月照空廊。

对仗、押韵全都到位了。

真的,非常的强。

七. R1可以联网吗?

众人皆知推理模型好,但是推理模型,几乎都不联网。

典型如OpenAI o1。

这给我带来了非常的多的困扰,要知道,OpenAI o1的知识库还是24年,很多东西都不知道,更别提一些所谓的实事了,你想用它来梳理分析一些最近的数据,比如美元指数、比如最近的财报等等,它完全不知道,甚至还传不了PDF,就非常的der比。

而DeepSeek,是为数不多的,推理+联网的。

我们来试试这句话:我想用鲁迅的文风写一篇2000字的公众号文章,分析一下2025春节档哪几部电影能爆,不要结构化。

DeepSeek去网上搜了50个网页,然后思考了半天。

用鲁迅的文风,成了一篇文。

效果非常好。

虽然整体测下来,在联网资料的RAG层面还有一些问题和不尽如意,但是已经非常强了,至少,能听懂我的话,知道我想要的是鲁迅风格。

再给一些时间。

八. 算力神话崩盘了吗?

最后,我想说一下算力的问题。

昨天,A股算力和美股算力都崩了,大家几乎都把原因归结到DeepSeek很便宜,所以未来不需要那么多算力,算力神话崩塌了。

但是我觉得这个思路不太对。

在第一次工业革命的时候,有一个经济学里面非常著名的悖论,是由威廉·斯坦利·杰文斯提出来的,叫做Jevons 悖论。

当时,英国的工业革命正在加速发展,蒸汽机的效率也在不断提高。人们普遍认为,蒸汽机会越来越节能,也越来越会减少煤炭消耗。

但实际情况却打了所有人的脸。

因为,更高效的蒸汽机降低了使用煤炭的成本,结果导致蒸汽机被更广泛应用,煤炭消耗总量反而大幅增加。

原因大概是这样的:

假设新技术让汽车的燃油效率提高了 50%(比如每加仑能跑 30 公里变成 45 公里)。照理来说,这应该减少燃油总消耗,但现实可能是:

由于油耗更低,开车的成本下降,人们更愿意开车,开车里程增加。

购车门槛降低,更多人买车。

物流成本下降,商家扩大运输量。

最终,油耗效率提高后,燃油消耗的总量可能不降反升**。**

跟现在算力逻辑是一摸一样,如果你要把DeepSeek对与算力的影响带入的话,那其实就会导致:

因为大模型需要的训练和推理算力成本下降,反而会推动AI应用和生态的繁荣,端侧、个人级别大模型逐渐成熟,算力的总需求反而越来越大。

至于股市算力崩盘,我想说的是,涨多了就是原罪。

而且美元指数都崩成什么样了,直接破了60日均线,纳斯达克和英伟达不崩才奇怪好吧。

只能说,DeepSeek有短期驱动效应,但是核心还是内身问题,DeepSeek踩中了这个节点,天时地利人和。

此刻的DeepSeek,就是众望所归的,天命人


如何系统学习掌握AI大模型?

AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。

学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。

这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享

在这里插入图片描述

1. 成长路线图&学习规划

要学习一门新的技术,作为新手一定要先学习成长路线图方向不对,努力白费

这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础(书籍含电子版PDF)

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识

在这里插入图片描述

4. 2024行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

在这里插入图片描述

5. 大模型项目实战

学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

6. 大模型面试题

面试不仅是技术的较量,更需要充分的准备。

在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

在这里插入图片描述

全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以微信扫描下方CSDN官方认证二维码,免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值