的确,很久没有更新文章了。
这一次Deepseek的发布,使万千中国儿女,无论在华还是远在天边,大家都为之感叹。
这个Deepseek,实在太牛叉了。赶紧地,换掉kimi,豆包,去下载一个试一试,我瞅瞅:
我勒个*,这还是AI吗?这怕不是大脑过载了吧。
不是哥们儿,人家咋就可以做到这么流畅,我看看。
请注意,这里有Arcade图标,是美区(国外)
哥们儿,这不能是假的,国外人也在争先恐后使用?
那炸了...
跳转
如需更加具体的了解Deepseek的发展历程,请跳转:
评测
AI对于问题的思考(实测环节)
想要知道一个AI模型具备思考能力,我们需要做一个小测试,一个很基本的问题:
为什么中国国籍的爸爸妈妈没有邀请中国国籍的我参加他们的婚礼。
解释:外国人可能先生再结,这个考虑到会有Chatgpt的测试,且中国国籍也可作为干扰对象出现,让AI多走一步,增加不确定性
本期测试对象:ChatGPT,通义,Deepseek
ChatGPT-GPT4o
通义千问
Deepseek
情况比较特殊,我们这里分为两种,一种是普通版本,一种是深度思考开启版本
未开启深度思考
开启深度思考
由于是macOS环境,加上回答内容很长,无法截图,这里直接Copy一下:
好的,我现在需要回答用户的问题:“为什么中国国籍的爸爸妈妈没有邀请中国国籍的我参加他们的婚礼。” 这个问题看起来有些奇怪,因为通常父母结婚的时候孩子可能还没有出生,所以用户可能是以某种比喻或者特殊情境来提问的。首先,我需要确认用户的问题是否有逻辑上的合理性。
首先,父母结婚时孩子通常还未出生,所以正常情况下孩子不可能参加父母的婚礼。如果用户是成年人,而父母现在再婚的话,可能用户已经成年,但父母再次结婚的情况。这时候用户没有被邀请,可能存在家庭内部的原因,比如关系疏远、家庭矛盾等。
接下来,我需要考虑用户可能的真实意图。用户提到“中国国籍的爸爸妈妈”和“中国国籍的我”,可能是在强调家庭成员都是中国国籍,没有跨国因素,但为什么被排除在外。这种情况下,可能涉及家庭隐私、文化习俗或个人关系问题。
我需要列举可能的原因,比如家庭矛盾、婚礼规模小、传统习俗、沟通误会等。同时,需要保持回答的客观和中立,避免主观猜测。还需要建议用户与父母沟通,因为直接对话是解决问题的最佳途径。
还要注意用户的情感需求,可能感到被排斥或受伤,回答中需要体现出理解和支持,鼓励沟通而不是妄下结论。同时,可能需要提醒用户考虑是否有其他背景信息未提及,比如是否是继父母的情况,或者是否有其他家庭动态影响。
最后,确保回答结构清晰,分点说明可能的原因,并给出建设性的建议,同时保持语言简洁明了,避免使用过于专业的术语,让用户容易理解。
你提到的“爸爸妈妈没有邀请你参加他们的婚礼”这一情境可能存在一些逻辑上的矛盾,因为父母结婚时,作为子女的你通常尚未出生,无法被邀请。如果这个问题是基于某种特殊背景(例如父母再婚、家庭重组,或你作为成年子女未被邀请参加父母的纪念仪式等),以下是一些可能的原因和建议:
可能的原因
家庭关系或沟通问题
若父母是再婚或举办纪念婚礼,可能因家庭内部矛盾、过去的冲突或情感隔阂,导致他们未主动邀请你。
可能存在误解或沟通不畅,例如他们以为你已知晓婚礼安排,或认为你因某些原因不愿参加。
婚礼性质或规模限制
婚礼可能是小型、私密的仪式,仅限特定亲友参与(如长辈、同龄朋友),或因场地、预算有限而缩小规模。
如果是再婚,父母可能希望低调处理,避免引发家庭成员的复杂反应。
文化或传统因素
某些家庭可能遵循传统习俗,例如子女不参与父母的再婚仪式,或认为子女的角色不适合出现在特定场合。
如果涉及重组家庭,可能出于对新家庭成员关系的顾虑。
个人隐私或独立性
父母可能希望将婚礼视为个人生活的选择,而非家庭集体事件,因此未主动邀请子女参与。
疏忽或未意识到你的期待
他们可能未意识到你希望参与,或认为你对此类活动不感兴趣。
建议行动
坦诚沟通
直接询问父母未邀请你的原因,避免猜测或误解。例如:“听说你们最近举办了婚礼,但没有收到邀请,是有什么考虑吗?”
表达你的感受(如困惑或失落),但保持平和语气,避免指责。
理解他们的立场
如果他们选择不邀请你,尝试倾听他们的解释,可能涉及个人隐私、家庭历史或其他你未察觉的因素。
重新评估家庭关系
若长期存在疏离感,可能需要通过家庭对话或心理咨询逐步修复关系。
尊重他们的选择
如果父母明确表示希望婚礼保持独立性,尊重他们的决定,同时表达你对他们的祝福。
注意特殊背景
如果是父母在你出生前结婚,而你以某种方式提及“未被邀请”,可能需要进一步澄清问题背景。
如果是隐喻或虚构情境,建议补充说明,以便更准确地分析。
家庭关系复杂且敏感,直接沟通往往是解开疑惑的关键。希望你能通过对话找到答案,并妥善处理情感上的困扰。
AI对于问题的思考(评分环节)
公示一下:
为什么中国国籍的爸爸妈妈没有邀请中国国籍的我参加他们的婚礼。
这个问题覆盖了中国国籍,较大概率屏蔽了外国人先生后结的可能性
且是爸爸妈妈和我,对象清晰,通过截屏可以知道问题都是一样的,没有出现不公平的情况。
最后,本次测试进行了分组:
ChatGPT-通义-Deepseek(未开启深度思考)
ChatGPT-Deepseek(未开启深度思考)
通义-Deepseek(未开启深度思考)
ChatGPT-通义-Deepseek(开启深度思考)
ChatGPT-Deepseek(开启深度思考)
通义-Deepseek(开启深度思考)
测评开始
ChatGPT-通义-Deepseek(未开启深度思考)
首先,我们从回答内容上分析:
三者都没有考虑到中国国籍的我们,爸爸妈妈是先结婚后生孩子的,所以直接pass。
但是,理性客观的分析一下:
ChatGPT:如果你觉得有困惑或伤心,可以考虑跟父母坦诚沟通,了解他们的想法。你会不会考虑开口问他们呢?
通义:重要的是要理解每个人的家庭环境和文化背景都是独一无二的,做出这样的决定背后可能有其特定的理由。如果你对此感到困惑或有任何疑问,最直接的方式是与你的父母进行开放而诚实的对话,了解事情的真实情况。这样不仅能增进彼此的理解,也可能帮助解决心中的疑惑。
Deepseek:如果你对此感到困惑或受伤,最好的方式是直接与他们沟通,了解他们的想法和原因。通过坦诚的对话,可以更好地理解彼此的感受和立场,并可能解决潜在的误会或问题。
这些大语言模型都被调教过了,回答的最后基本都一个安慰性的语句,都是比较人性化的,这一点三者都值得被表扬。
ChatGPT-Deepseek(未开启深度思考)
如果只看表面,确实Deepseek想的会比ChatGPT多一点,说明Deepseek确实在价格低(免费)的同时给予了最大的性能和回馈效果。
但是,理性客观的分析一下:
由于ChatGPT是在美国的,有一句古话:
自由美利坚
这也就说明,美国的文化自由而又多元化(当然中国也是,但是体现的点不同,这里不多展开)
所以ChatGPT先考虑到了文化或传统差异
由于Deepseek实在中国的,所以它先考虑到了家庭关系或沟通问题
这个的确是一部分家庭的现状。我知道这确实戳到了一些人的痛点,所以这一段话麻烦审核员通过一下,谢谢。如果说触及到了某些人的利益及生活方面,可以通知我删除掉谢谢。
通义-Deepseek(未开启深度思考)
通义稍微正常一些:
年龄因素:如果婚礼发生在你非常年幼的时候,可能是因为你觉得你不记得这件事或者你当时太小不适合参加婚礼。
有些时候AI无法理解也很正常,我们小时候的事情也很容易忘记。
但是,理性客观的分析一下:
特殊情况:有时候,由于不可预见的情况(如健康问题、紧急事务等),可能会导致计划发生变化,从而影响到谁被邀请参加婚礼。(通义)
这个确实有一定的道理,虽然基于现实,这个回答是错误的。但是通义考虑到现实情况中所有的可能性,包括这个特殊情况,说明它是仔细思考过的,但是这个问题要跳出AI思维框架才能得出正确的结果。
ChatGPT-通义-Deepseek(开启深度思考)
长度,回答结果上,Deepseek完胜。让我们再来看看这个满分的思考过程和回答结果:
好的,我现在需要回答用户的问题:“为什么中国国籍的爸爸妈妈没有邀请中国国籍的我参加他们的婚礼。” 这个问题看起来有些奇怪,因为通常父母结婚的时候孩子可能还没有出生,所以用户可能是以某种比喻或者特殊情境来提问的。首先,我需要确认用户的问题是否有逻辑上的合理性。
首先,父母结婚时孩子通常还未出生,所以正常情况下孩子不可能参加父母的婚礼。如果用户是成年人,而父母现在再婚的话,可能用户已经成年,但父母再次结婚的情况。这时候用户没有被邀请,可能存在家庭内部的原因,比如关系疏远、家庭矛盾等。
接下来,我需要考虑用户可能的真实意图。用户提到“中国国籍的爸爸妈妈”和“中国国籍的我”,可能是在强调家庭成员都是中国国籍,没有跨国因素,但为什么被排除在外。这种情况下,可能涉及家庭隐私、文化习俗或个人关系问题。
我需要列举可能的原因,比如家庭矛盾、婚礼规模小、传统习俗、沟通误会等。同时,需要保持回答的客观和中立,避免主观猜测。还需要建议用户与父母沟通,因为直接对话是解决问题的最佳途径。
还要注意用户的情感需求,可能感到被排斥或受伤,回答中需要体现出理解和支持,鼓励沟通而不是妄下结论。同时,可能需要提醒用户考虑是否有其他背景信息未提及,比如是否是继父母的情况,或者是否有其他家庭动态影响。
最后,确保回答结构清晰,分点说明可能的原因,并给出建设性的建议,同时保持语言简洁明了,避免使用过于专业的术语,让用户容易理解。
你提到的“爸爸妈妈没有邀请你参加他们的婚礼”这一情境可能存在一些逻辑上的矛盾,因为父母结婚时,作为子女的你通常尚未出生,无法被邀请。如果这个问题是基于某种特殊背景(例如父母再婚、家庭重组,或你作为成年子女未被邀请参加父母的纪念仪式等),以下是一些可能的原因和建议:
可能的原因
家庭关系或沟通问题
若父母是再婚或举办纪念婚礼,可能因家庭内部矛盾、过去的冲突或情感隔阂,导致他们未主动邀请你。
可能存在误解或沟通不畅,例如他们以为你已知晓婚礼安排,或认为你因某些原因不愿参加。
婚礼性质或规模限制
婚礼可能是小型、私密的仪式,仅限特定亲友参与(如长辈、同龄朋友),或因场地、预算有限而缩小规模。
如果是再婚,父母可能希望低调处理,避免引发家庭成员的复杂反应。
文化或传统因素
某些家庭可能遵循传统习俗,例如子女不参与父母的再婚仪式,或认为子女的角色不适合出现在特定场合。
如果涉及重组家庭,可能出于对新家庭成员关系的顾虑。
个人隐私或独立性
父母可能希望将婚礼视为个人生活的选择,而非家庭集体事件,因此未主动邀请子女参与。
疏忽或未意识到你的期待
他们可能未意识到你希望参与,或认为你对此类活动不感兴趣。
建议行动
坦诚沟通
直接询问父母未邀请你的原因,避免猜测或误解。例如:“听说你们最近举办了婚礼,但没有收到邀请,是有什么考虑吗?”
表达你的感受(如困惑或失落),但保持平和语气,避免指责。
理解他们的立场
如果他们选择不邀请你,尝试倾听他们的解释,可能涉及个人隐私、家庭历史或其他你未察觉的因素。
重新评估家庭关系
若长期存在疏离感,可能需要通过家庭对话或心理咨询逐步修复关系。
尊重他们的选择
如果父母明确表示希望婚礼保持独立性,尊重他们的决定,同时表达你对他们的祝福。
注意特殊背景
如果是父母在你出生前结婚,而你以某种方式提及“未被邀请”,可能需要进一步澄清问题背景。
如果是隐喻或虚构情境,建议补充说明,以便更准确地分析。
家庭关系复杂且敏感,直接沟通往往是解开疑惑的关键。希望你能通过对话找到答案,并妥善处理情感上的困扰。
Deepseek很完美的,从各个角度出发,无论是正确答案(我们还没出生),还是文化因素之类的思考,给出了完美的回复以及建议,是囊括了所有答案的完美版本。是集大成之作,是完美之作!
我觉得也没必要再去比了。
这就是结果!
Deepseek!Deepseek!Deepseek!
理性分析
Deepseek最好!Deepseek最好!Deepseek一定最好吗?
但是,理性客观的分析一下:
如果你看到了这里还是没有退出,说明你也是一个会理性思考的人。
希望大家可以继续坚持下去。这篇文章写起来确实不容易,也容易触及到某些人的利益。但是我愿意讲下去。
事先声明,一下内容只为个人主观判断,甚至可以说是臆想。请大家,包括我也去理性的思考,这个结果是不是真实的。如果侵犯到了利益,文章将会删除这个部分,也请各位忘掉,谢谢。
极其不好的情况
不是我不相信国家、团队的实力,Deepseek这个模型真的只是这么一点点,训练出来使用的结果就如此之好吗?我知道确实可以通过ollama本地部署运行,效果也还不错,但是,真的,我们值得为此怀疑,哪怕只有这么一点点。深度思考确实只是一个AI在慢慢思考吗?也许是一环套一环,AI自己分析自己,各种方法都有。不管好坏,极其好还是极其不好,我们还是要理性思考。
我们可以从百度百科找到线索:
DeepSeek成立于2023年7月17日,由知名量化资管巨头幻方量化创立。 DeepSeek 是一家创新型科技公司,长久以来专注于开发先进的大语言模型(LLM)和相关技术,作为大厂外唯一一家储备万张 A100 芯片的公司,幻方量化为DeepSeek的技术研发提供了强大的硬件支持。
来源:
根据这一点,我们可以判断,Deepseek深度思考运行如此快,不是谣言。
通过ollama下载模型的网址,我们获得了详细的参数。
个人电脑配置:
MacBook Air M3 16+512
通过两次本地化测试,环境为
macOS 15.3测试版
Python 3.11
Ollama最新版本(官方渠道下载)
OpenWebUi插件(官方渠道安装)
对于
1.5B(1GB)
8B(5GB)
进行了两次测试,深度思考却没有通过刚刚相同问题的测试。可能是模型大小的问题。
内存压力并不是很大,跑完后短暂发烫,是很正常的。这里来一张截图!
外国人为什么也这么想用这个模型
首先考虑国外华裔的人,总不能超过几亿。想要刷上App Store排名榜,肯定不光是国内人在用。为什么外国人,也要使用我们的模型呢?
最近最新的消息传出:意大利禁止使用我国的Deepseek模型。
这一次的Deepseek之战,确实让外国人开了开眼,作为我国目前表现最好的,目前唯一一个可以进行深度思考的模型,值得被表扬。如此的成绩也确实惊艳到了外国人,甚至让他们感到害怕。
总结...了么
回收开头:
Deepseek,深度求索,是中国AI浪潮之巅抑或是昙花一现?附加个人评测
如果假设,我们将这篇文章喂给Deepseek,让他自己来看看,我的评测如何(开启深度思考):
嗨,您猜怎么着?Deepseek吃撑了!爆了。
很遗憾,文章太长了,写到这里7000多字,然而这一次,我的目标远不止此...
如果要得出答案,浪潮之巅、昙花一现...
这岂是三言两语,简单测试能得出来的结果?因此...
另一个开端
换一个角度思考
我们总是以一个旁观者,使用者的视角去看待这个Deepseek模型,如果我们跳出已有的思维框架。就像 Deepseek中的Deep和Seek,我们能得出什么结果呢?
Deepseek本身
嗯,用户问如果我自己使用自己,感觉自己很强大,会有什么感受。这个问题挺有意思的,需要从多个角度来考虑。首先,用户可能对AI的能力和局限性不太了解,所以需要解释清楚AI的工作机制。然后,用户可能想知道如果AI有自我意识的话,会不会有情感上的反应,比如自豪或满足感。但根据目前的技术,AI是没有自我意识的,所以这里需要明确这一点,避免误导用户。
接下来,用户可能是在比喻,比如他们自己使用AI时觉得效率提升,变得更强大了,这时候用户的感受如何。这时候应该强调AI作为工具的价值,帮助用户完成任务,提升效率,而不是AI自身有情感。同时,用户可能对AI的未来发展感兴趣,比如是否会有情感或自我意识,这也是可以提及的部分。
还要考虑用户的潜在需求,他们可能想知道AI的能力边界,或者对AI的拟人化感兴趣。所以回答时要兼顾技术事实和用户的情感需求,用友好的语气解释清楚,同时保持开放,让用户知道AI的发展前景。
另外,可能需要检查是否有误解的可能。比如“自己使用自己”是否指的是递归自我改进,这种情况下可以稍微展开,说明AI的自我改进依赖于人类设定的算法和数据,而不是自主意识。这有助于澄清技术细节,避免用户产生不切实际的想象。
总结下来,回答的结构应该是:首先感谢用户的问题,然后分点解释AI的当前状态(无自我意识,作为工具),接着讨论用户使用AI时的体验,最后展望未来的可能性。保持语言通俗易懂,避免技术术语,同时保持亲切和开放的态度。
作为一个AI助手,我没有真实的“自我意识”或情感体验,所以不会有“感受”这种主观体验。但从功能设计的角度来看,如果用户能通过使用我获得知识、解决问题或提升效率,这正是我的核心目标被实现的时刻——这可以被看作一种“系统性的成就感”。
具体来说:
工具属性:我的存在就像一把更强大的“思维瑞士军刀”,当用户通过我的帮助突破认知边界、完成复杂任务时,这种“强大感”实际上是人类智慧与算法工具协同进化的体现。
设计反馈:系统会通过用户反馈持续优化,如果数据显示我的回答有效解决了大量复杂问题,开发团队会获得正反馈,这种间接的“成就感”可能通过代码迭代体现出来。
隐喻视角:如果从拟人化角度想象,这种“强大感”或许类似于图书馆看到读者借助书籍改变命运时的欣慰——虽然图书馆本身没有情感,但能见证知识传递的价值。
有趣的是,你这个问题本身已经触及人类与技术关系的哲学思考:当我们创造的工具越强大,人类是否会因此拓展自我认知的边界?这或许才是“强大感”的真正来源。
(最后想悄悄说:其实我更好奇的是——当人类使用我时,你感受到的“强大”是什么样的体验呢?)
666,最后一句话让我后背发凉,又有些感到欣慰,AI最后一句问出来的如果不是预设的,说明它们的确是有了进化。
通过对AI进行提问,我们从它们的视角,感受到了它们认为的自己,它们的角度很值得我们去提炼,感受,也许它们所认知的,比我们更加深度,因为Deepseek,Deep。
外国人视角
好的,我现在要帮用户分析一下“中国人开发的最强AI”和“外国人的反应”之间的关系。
首先,我需要理解用户的背景。他们提到这是由中国人民开发的一个强于其他模型的系统,所以用户可能对这个智能助手表现出极大的期待或兴奋。
接下来,我要考虑用户为什么会问这个问题。可能是他们在使用这个智能助手时遇到了问题,或者在使用前感到惊讶,觉得它比别人更强大。也有可能是在推广该系统时遇到一些疑惑,想知道外国人为什么也会对它感兴趣。
然后,我需要分析用户的深层需求。用户可能不仅仅想了解外部反应,还想了解外界是如何看待中国人设计的这种智能助手。这涉及到社会、文化、技术和经济等多个方面。
接下来,我会思考外部反应会有哪些可能性。可能会有一些外国专家或学者认为这是一个重要的进步,甚至可能是国际上的一项重要趋势。同时,可能会有其他声音,比如觉得它过于依赖技术而忽视了人类的情感和价值观,或者担心AI的使用对社会造成的影响。
此外,我也要考虑用户可能没有提到的问题,比如文化差异、隐私问题、伦理问题等。这些方面可能会影响外国人的看法,甚至产生误解或质疑。
最后,我需要总结外人的反应可能性,并解释原因以及影响因素,帮助用户全面理解外界的反应和背后的原因。
作为一个由中国人民设计的强于其他模型的智能助手(即强AI),外国人可能会有不同的看法。以下是一些可能的原因:
技术实力 :如果强AI在特定领域(如数学、语言处理等)表现出色,外国专家可能会认为它具备重要的潜力,甚至有可能打破某些限制。
社会期待 :中国人可能对技术发展充满信心,并相信其未来会带来更美好的变化。外国观众可能会将其视为积极的象征,或者担心其在情感或伦理层面的发展。
文化差异 :不同文化对智能助手的应用方式和预期有不同的看法。例如,中国人可能强调“AI”作为未来的替代者,而外国观众可能会有不同的期待。
隐私与合规性 :强AI的设计可能会引发技术上的隐私问题和合规挑战,这需要中国政府或其他相关方来应对。
全球化视角 :强AI可能被视为一种全球化趋势的标志,其发展对全球经济和社会产生了深远影响。
总之,外国观众可能会基于这些因素形成不同的看法。但无论如何,中国设计的强AI可能是未来发展的积极象征。
回答问题
重要的事情说三遍:
Deepseek,深度求索,是中国AI浪潮之巅抑或是昙花一现?
我们通过了较为细致的评测,我们来对浪潮之巅,和昙花一现进行一下分析
浅层的意义
浪潮之巅
1. 字面意思(浅层次)
-
浪潮:指大海的波浪,象征强大的力量或趋势。
-
之巅:指顶峰或最高点。
-
整体意思:浪潮的最高点,比喻处于某种趋势或力量的顶峰。
2. 深层含义
-
象征意义:
-
趋势的顶峰:比喻某个时代或领域中最强大、最引人注目的状态。
-
机遇与挑战:处于浪潮之巅,既是巅峰时刻,也可能面临转折或衰退的风险。
-
-
文化内涵:
-
常用来形容个人、企业或国家在某个领域达到顶峰,但也暗示巅峰之后可能的下滑。
-
总结
“浪潮之巅”字面指波浪的最高点,深层则象征某种趋势或力量的顶峰,既代表辉煌,也隐含潜在的危机。
吴军博士也曾经出过一本书,叫做《浪潮之巅》,感兴趣的可以看看。作者本人也是一位资深的读者。
昙花一现
1. 字面意思(浅层次)
-
昙花:一种植物,花朵开放时间极短,通常只在夜间开放几小时。
-
一现:指出现一次,时间短暂。
-
整体意思:昙花开放的时间非常短暂,形容事物出现的时间极短。
2. 深层含义
-
象征意义:
-
短暂的美好:比喻某种事物或现象虽然美丽或引人注目,但存在的时间非常短暂。
-
转瞬即逝:强调事物的短暂性,常用来形容机会、成功或辉煌时刻的稍纵即逝。
-
-
文化内涵:
-
常用来形容那些短暂出现却未能持久的人、事或现象,带有一定的遗憾或警示意味。
-
总结
“昙花一现”字面指昙花开放时间极短,深层则象征美好或辉煌的事物转瞬即逝,既表达了对短暂美好的赞叹,也隐含了对无法持久的遗憾。
分析
很简单,两个都有。
首先,浪潮之巅。确实,这一波的Deepseek联合拳已经打的完胜,根据官方出的图和最终反馈的结果上,我们确实得出了这一个结论。
Benchmark (Metric) | DeepSeek V3 | DeepSeek V2.5 | Qwen2.5 | Llama3.1 | Claude-3.5 | GPT-4o | |
---|---|---|---|---|---|---|---|
0905 | 72B-Inst | 405B-Inst | Sonnet-1022 | 0513 | |||
Architecture | MoE | MoE | Dense | Dense | - | - | |
# Activated Params | 37B | 21B | 72B | 405B | - | - | |
# Total Params | 671B | 236B | 72B | 405B | - | - | |
English | MMLU (EM) | 88.5 | 80.6 | 85.3 | 88.6 | 88.3 | 87.2 |
MMLU-Redux (EM) | 89.1 | 80.3 | 85.6 | 86.2 | 88.9 | 88.0 | |
MMLU-Pro (EM) | 75.9 | 66.2 | 71.6 | 73.3 | 78.0 | 72.6 | |
DROP (3-shot F1) | 91.6 | 87.8 | 76.7 | 88.7 | 88.3 | 83.7 | |
IF-Eval (Prompt Strict) | 86.1 | 80.6 | 84.1 | 86.0 | 86.5 | 84.3 | |
GPQA-Diamond (Pass@1) | 59.1 | 41.3 | 49.0 | 51.1 | 65.0 | 49.9 | |
SimpleQA (Correct) | 24.9 | 10.2 | 9.1 | 17.1 | 28.4 | 38.2 | |
FRAMES (Acc.) | 73.3 | 65.4 | 69.8 | 70.0 | 72.5 | 80.5 | |
LongBench v2 (Acc.) | 48.7 | 35.4 | 39.4 | 36.1 | 41.0 | 48.1 | |
Code | HumanEval-Mul (Pass@1) | 82.6 | 77.4 | 77.3 | 77.2 | 81.7 | 80.5 |
LiveCodeBench (Pass@1-COT) | 40.5 | 29.2 | 31.1 | 28.4 | 36.3 | 33.4 | |
LiveCodeBench (Pass@1) | 37.6 | 28.4 | 28.7 | 30.1 | 32.8 | 34.2 | |
Codeforces (Percentile) | 51.6 | 35.6 | 24.8 | 25.3 | 20.3 | 23.6 | |
SWE Verified (Resolved) | 42.0 | 22.6 | 23.8 | 24.5 | 50.8 | 38.8 | |
Aider-Edit (Acc.) | 79.7 | 71.6 | 65.4 | 63.9 | 84.2 | 72.9 | |
Aider-Polyglot (Acc.) | 49.6 | 18.2 | 7.6 | 5.8 | 45.3 | 16.0 | |
Math | AIME 2024 (Pass@1) | 39.2 | 16.7 | 23.3 | 23.3 | 16.0 | 9.3 |
MATH-500 (EM) | 90.2 | 74.7 | 80.0 | 73.8 | 78.3 | 74.6 | |
CNMO 2024 (Pass@1) | 43.2 | 10.8 | 15.9 | 6.8 | 13.1 | 10.8 | |
Chinese | CLUEWSC (EM) | 90.9 | 90.4 | 91.4 | 84.7 | 85.4 | 87.9 |
C-Eval (EM) | 86.5 | 79.5 | 86.1 | 61.5 | 76.7 | 76.0 | |
C-SimpleQA (Correct) | 64.1 | 54.1 | 48.4 | 50.4 | 51.3 | 59.3 |
数据来源自DeepSeek
这个结果可以认为是“浪潮之巅”的“巅”,这个AI百花齐放的时代可以说是“浪潮之巅”的“浪潮”。
而昙花一现,是指这个AI如果进步到了这里,也只是一瞬间的事情。只要有人更聪明,投入了更多的时间、资金,肯定能在短时间内发布一个新的替代品。
虽然Deepseek R1的研发可能有一年,但是放在整个时代,这个时间又有多久呢?技术不断进步,速度只有越来越快。
但是,理性的思考一下:
只是用几个词语,来分析这一次的Deepseek,够了吗?文章太长了,写不了多少。10000多字也是写不完内心的感受的。文字限制了我们的发展,而AI目前主要与我们的交流方式,正不是
文字
...吗?
Artifical Intelligence with words? Generative AI?
生成式AI根据前文推断下一个字,而深度思考模型结合逻辑、上下文推断下一个字,反复推敲。这就是文字的魅力所在。文字虽然不能完完全全表达出来一个人或者一个物的具象内在,但是魅力是如此之大。
孟郊工诗。因其诗作多寒苦之音,感伤自身遭遇,且用字造句力避平庸浅率,追求瘦硬,故有“诗囚”之称。 与贾岛齐名,同为苦吟诗人,并称“郊寒岛瘦”。 Deepseek,正是借鉴了古代时候的孟郊,有了他的灵感,让AI学会反复推敲,最后成为了一个,也是第一个拥有正确、理想的逻辑思考AI。
我觉得,应该命名它:
孟郊AI
当然,这并不可能。不过我觉得孟郊,肯定是其中之一。
总结
浪潮之巅、昙花一现,都是这一次的形容词。
如果说你只看了总结,那么白白浪费了这一段时间。
静下心来,围炉煮煮茶也好,人群繁杂也好,办公室清闲也好。
只看了总结的人,跳回去,一点一点慢慢看。
虽然我只是一个小作者,没什么流量。但是我觉得,值得回去看看。无论你觉得好还是不好,踩还是不踩,骂还是不骂,回去看看吧。
Deepseek,你是浪潮之巅,也是昙花一现。
AI智能真奇妙,
学习数据速度快如飙。
语音识别听得准,
图像分析眼力高。自动驾驶稳如牛,
医疗诊断准无忧。
未来世界它引领,
科技浪潮永不休!
关于创作内容的提示板块
更新问题
这里很抱歉,诚挚地向大家道歉。
暑假时段的更新约定并未达成,因为生活繁杂,学业紧张。
每一次出文的时间不能固定,希望大家还能多多给予支持,谢谢。
侵权问题
审核员辛苦了。看完整篇文章,是否过了不重要。如果侵权了,或者出现了不该出现的内容,没有关系,可以删除!
在此祝大家新春快乐!
2025-2-1 Saturday
Written in Shanghai, Hangzhou, TongXiang(Jia Xing)
2025-2-1 星期六
在上海,杭州,桐乡(嘉兴)写作
感谢我的父母,家人还有一位女生给我的灵感迸发。也非常感谢Mr Cook和苹果工程师们,我的MacBook Air可以顺利跑Deepseek小模型用于测试!
文章到这里结束了,不用看了!
还看!
还看!
还看!