蛇年开年的第一个热搜,非DeepSeek莫属。杭州深度求索公司临近除夕发布的开源模型DeepSeek-R1引发了全球关注。实现性能对标 OpenAI-o1 正式版,经受住各方评测的DeepSeek,从深度求索发布论文可以清晰了解它的设计思路和优势。
论文附上:DeepSeek_R1论文翻译附原文地址_deepseek 翻译pdf-CSDN博客
目前DeepSeek访问量暴增,网页版已间歇性“躺平”。可以看出,DeepSeek的爆火也印证了中国技术界一直在讨论和探索的话题,例如,在AI算力堆资源搞“装备竞赛”的传统路径之外,DeepSeek蹚出了一条算法创新的新路。再例如,大模型开源和闭源之争,DeepSeek(R1以最宽松的 MIT 许可完全开源)再次印证了开源大模型的强劲优势。
CSDN平台上已经有大量关于DeepSeek各版本的资源、代码、讨论文章。我们采访了已经使用DeepSeek的开发者们,听听他们怎么看、怎么用DeepSeek这个AI当红炸子鸡,希望给你一些启发和借鉴。
一、DeepSeek,开发者怎么看?——原理NB,价格便宜,安心入坑
春节期间用DeepSeek创作小短文,紧跟热点快速生成文案,文章已经获得10万+的阅读量。不过由于1.27日Deepseek火爆全球,官网和APP陆续无法使用,之后使用的是纳米AI搜索、硅基流动AI平台、秘塔AI等里面集成的Deepseek服务。接下来还会分享一些日常Deepseek使用技巧。
我很早就用DeepSeek了,因为在LLM跑分平台看这个分数很高,用起来效果也比别的好,当时觉得很神奇就去搜了一下,发现是国产的大模型,论文也发了,原理我也看了一下确实高效,也因为原理NB所以便宜,遂安心入坑,直接买了十块钱API用。
DeepSeek现在就是一个支持“深度思考”和“联网搜索”的NB大模型。它最方便的是深度思考的过程它会直接写出来,其他大模型现在不直接写出来。而联网搜索它不会写出来它是怎么搜的,但是搜索结果异常精准,比Kimi的联网搜索能力还强点。
DeepSeek对大众最友好的,就是把思维链暴露出来,让你知道他是如何思考的。R1+联网的情况下不错,比如技术实现的思路、需求分析,都能给出有用的回复。整体使用下来,准确性可以,幻觉不明显,推理模型的优点非常明显,技术方案类的问题回答比较全面。但联网查询一些工具的时候会有偏差,效果不是很好。
体验过后觉得基础代码逻辑分析能力与豆包能力类似,混合复杂逻辑上稍逊于豆包的MarsCode。上下文理解能力上还是不错的,幻觉的情况少了很多,但是依然存在不小的概率致幻。
二、DeepSeek,开发者怎么用?——本地部署虽然数据安全,但效果差,必要性不大
由于原生版模型参数量为6710亿,所需的部署资源极大,可使用ollama部署蒸馏版本的小模型。
部署过程倒是不复杂,使用ollama3启动很快,但是小模型效果很差,启动一个稍微大一些的模型token4个/秒,没法用。还是得用在线的大模型。部署过程中遇到最大问题就是需要测试本地能跑的最大模型是哪个,需要下载几个模型测试,虽然有硬件建议,但是我还是在8G显存下测试了,效果很差,建议32G显存一下的用户使用在线大模型。
我在本地部署了32B的R1,用起来还可以,我的方案是ollama + chatbox。本地部署不能联网,相当于减配版,能用,但是一般人没啥必要。(数据安全和联网不减配,鱼与熊掌不可兼得~)
vscode+Deepseek+cline一起使用的情况下,Deepseek在成本低和中文提示词理解能力方面都有很大优势个人用户不建议私有化部署,因为成本实在太高。本地部署的参数最多就是14b或者更小的参数,除非有3张左右80G显存来上个70B的(一般人电脑可不太可能有这么多显卡,至于大家震惊的R1需要18到20张的H100卡就更不用想了)。建议还是用官方或者三方提供的 API。
三、用DeepSeek开发敲代码效果怎么样?
DeepSeek我一开始用的时候只有API,但是更新得很快,当时我是在写一个算法题,走投无路了,问别的AI都不行,ChatGPT和claude都是一眼错,一直WA或超时,我让claude优化它直接给我输出源码一个字不给我改,让ChatGPT优化它把我功能逻辑都改了直接全部WA。问了DeepSeek,它深度思考的过程我也在陪它深度思考,它费老大劲看懂题,我也终于在它费劲的过程中稍微能琢磨懂一点题目的意思。它思考了好几分钟终于想出来优化方案,还直接AC了。
代码能力方面和当前的Claude能力持平,生成代码和代码修复能力较强,相比国内的大模型高一个层次。代码生成、Bug修复等方面的需求建议使DeepSeek,性价比相比于ChatGpt和Claude更高。
1.直接在官网Deepseek.com写代码,做业务分析
2.使用vscode+Deepseek API +cline 用于代码解释,代码生成
四、DeepSeek的文案能力怎么样?
DeepSeek最惊艳之处在于其深度思考过程,它能够抽丝剥茧般地对整个思考过程进行细致入微的分析与解释。凭借其深度思考能力,其逻辑思维能力也得到了进一步提升,尤其在面对毫无头绪的问题时,能够有效激发灵感。它的出现极大降低了提示词的使用门槛,推进了人人用AI的浪潮。
过年正好也要写一些文案和材料,我也发现了,它的编程能力只是冰山一角,文案能力也非常不错。具体体现在,它想出来的那些比喻和类比,我确实是一时半会儿想不出来。而我,又是想象力和联想能力都很丰富的人,它每次给出的比喻又具体但又没有那么具体,这种“艺术源于生活”的高级抽象手法,总是让我感到非常感动,即使它抽象的时候可能会编造出一些本来没发生的事情,我也完全原谅了它。
中文文字生成能力相比ChatGPT更接近于口语化,更人性化,少些严肃的回应,多些人性的对话。
CSDN博主@申屠鹏会-CSDN博客直接给出了DeepSeek回复给他的一个深刻问题:
五、开发者们对DeepSeek还有什么建议?
遇到的问题就是经常不可用(太火了),建议官方在聊天界面上方添加一个状态(比如忙碌状态),请大家等待到空闲时刻再使用。
处理复杂问题时欠稳定,长时间问问题加载不出来。建议优化复杂任务处理能力,放宽敏感词限制,提高准确性。
本地使用时,显存偶尔会爆满;希望未来增加更多定制化选项,支持更细粒度的模型微调和更灵活的API接口。如果遇到具体问题或有改进的想法,会考虑提交PR。
本地部署后模型是没有限制的,各种东西随便问,回答的也很豪放。(不过也有希望放宽敏感词限制,提高稳定性、准确性的博主)
纸上得来终觉浅,绝知此事要躬行。
最后,附上安装部署指南,祝大家使用愉快。
本地部署:DeepSeek本地部署详细指南_deepseek部署的详细步骤和方法-CSDN博客
官方文档:Your First API Call | DeepSeek API Docs
使用DeepSeek的感受和吐槽
欢迎留言/投稿/入群讨论
↓↓↓
(CSDN技术社区交流群)