DeepSeek现在有多火不用多说,今天主要跟大家聊聊DeepSeek公司本身。它到底是一家什么样的公司?背后有着什么样的团队?为什么爆火之前鲜为人知?下面给大家揭秘一下。
相信我比大多数人都更早知道这家企业,因为2024年初的时候,有个项目要选择一个开源的编码大模型,同时支持代码生成和补全,而且在GPU有限的情况下可以进行私有化部署,结合Continue插件一起使用。那时候我就是选择的他家开源DeepSeek Coder 33B的大模型,并且对这家企业进行了深入的调查,当时就感觉这家企业真是家底厚,但是很低调,而且一直在搞研发,也不热衷于捞钱,现在很少有这种软件公司了。下面给大家详细介绍下这家企业:
1、DeepSeek背后事实上是一家做量化基金的公司,叫做幻方量化,这家企业可是一家曾经抵达过千亿规模的顶级基金,所以人家就是家底厚。而DeepSeek(深度求索)只是旗下的AI公司,2019年成立的。
2、DeepSeek这家企业的宗旨,就是自研AI训练平台。人家在起步时,直接投资近2亿,2020年时搭载了1100块GPU的“萤火一号”深度学习训练平台问世。然后又追加10亿,搭载了约1万张英伟达A100显卡的“萤火二号”在第二年也出现了。
所以你要从算力这个角度去看,人家很早就拿到了搞大模型的入场券,比ChatGPT更早。
那DeepSeek这家企业,就是烧钱搞研发吗?
你别说,还真就是这样,他们很早的定位就是不做垂直领域和应用,就要要做研究,去探索。而他们的愿景,是希望哪怕一个小的APP都可以低成本去用上大模型,而不是技术只掌握在一部分人和一部分公司手中形成垄断。而具体的商业模式,是基于他们开源的模型,被动可以跟商业化有所结合。
揭秘DeepSeek背后的团队
DeepSeek这家企业很有意思,首先,他们在招人时,认为经验不是那么重要。因为如果追求短期目标,那确实直接找现成的有经验的人就行。但是他们目标很长远,所以经验就没有那么重要了,反而基础能力、创造思维、是否热爱这些因素他们更看重。其次,他们没有KPI指标,因为DeepSeek初期招来的人,第一年往往做不出什么,都是在积累和做基础建设,慢慢到了第二年才会有一些成绩,所以他们的考核标准和一般公司不太一样,没有KPI也没有那些所谓的任务。最后,他们在进行创新时需要尽可能少的干预和管理。你交给员工非常重要的事,不干预他,他们自己想办法自由发挥,让每个人都有自由发挥空间和试错的机会。而创新往往都是自己产生的,不是刻意安排的。例如在研究的过程中,如果遇到了问题,他们自己就会拉人去讨论了,不需要被动Push。不过当一个好的Idea显示出潜力的时候,他们也会自上而下的去调配资源。
开源贡献精神
现在在科技圈有一个普遍的共识,美国负责创新,中国负责应用。但是DeepSeek的理念和价值观就不认同,DeepSeek创始人梁文锋认为,随着经济的发展,中国也要逐步的成为贡献者,而不是一直搭便车。中国已经习惯了摩尔定律从天而降,躺在家里18个月就会出来更好的硬件和软件。其实西方主导的技术社区是一代代孜孜不倦创造出来的,只是因为我们之前没有参与这样一个过程,以至于忽视了它的存在。所以DeepSeek在这一波浪潮中,他们的出发点就不是想趁机赚一笔,而是走到技术的前沿,去推动整个生态的发展。
现在中国要创新,一定是需要成本的。现在无论中国的经济体量还是例如腾讯这些大厂的利润,放在全球都不低。所以中国创新缺的不是资本,而是缺乏信心,以及不知道怎么组织高密度的人才,去实现有效的创新。
对于一个开源的公司如何形成护城河呢?其实开源就是发论文,公布代码,其实也没有失去什么。对于技术人员而言,能够被别人follow是一个很有成就感的事情。所以开源更像是一个文化行为,而不是一个商业行为,给予的是一种额外的荣誉。
DeepSeek把价值沉淀在团队上,他们中间的同事,特别是年轻人在这个过程中得到很多成长,积累了很多Know How,形成了可以创新的组织和文化。
况且颠覆性的技术,即使开源,它的重制,也是需要时间和成本的。比如说英伟达的显卡,理论上它没有什么技术秘密,很容易去复制,但是重新组织团队以及追赶下一代的技术,这都需要时间,所以护城河还是很宽的。
如何学习AI大模型 ?
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓
CSDN粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】
读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈
对于0基础小白入门:
如果你是零基础小白,想快速入门大模型是可以考虑的。
一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。
👉1.大模型入门学习思维导图👈
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程文末领取哈)
👉2.AGI大模型配套视频👈
很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。
👉3.大模型实际应用报告合集👈
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)
👉4.大模型落地应用案例PPT👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。(全套教程文末领取哈)
👉5.大模型经典学习电子书👈
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(全套教程文末领取哈)
👉6.大模型面试题&答案👈
截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(全套教程文末领取哈)
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习
CSDN粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】
读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈