因为好奇各家的大模型技术和产品能力,我过去用过非常多的的大模型App。最近趁着假期,对之前用过的一些国内外主流的大模型应用做了一次相对系统的体验和梳理。涵盖了11款的大模型产品,八个体验维度。
当然先声明下,这并不是技术型量化评测,更多的是站在用户视角,体验这些产品对日常工作生活带来的便利性。如果你感兴趣,可以点赞留言。
评测的大模型
11个大模型:
- 包括ChatGPT (OpenAI)
- 智谱清言
- 文心一言 (百度)
- Gemini (Google)
- 讯飞星火
- 通义千问 (阿里巴巴)
- Moonshot Kimi (月之暗面)
- 抖音豆包
- 海螺问问 (Minmax)
- Copilot (Microsoft)
- 百川大模型
评测的维度
8个维度:
文章发到群里后nicrosoft大佬 说缺少 性价比维度,应该同时考虑开发者视角。我原本想着这个文章就以用户视角写,听完大佬建议之后,我打算挖个坑,后续把开发者视角、性价比维度补充起来。感谢建议!
- 可以接受的输入文本长度
- 图片理解能力
- 文档理解能力
- 自定义智能体的体验
- 联网搜索能力
- 语音对话体验
- 图片生成能力
- App整体的易用性(包括Mobile端和Web端)
结论
- 从全球大模型来看,ChatGPT仍然是一骑绝尘,没有太多能打的竞争对手。20刀每月是值得的。
- 国内的大模型产品,综合体验最好的是智谱清言,没有明显的短板。
在细分领域突出:
- 最佳语音对话:海螺问问,超多的声音可选,同时支持10秒克隆自己的声音,很好玩。
- 最长上下文:月之暗面(MoonshotAI)的Kimi的200K遥遥领先,但过段时间估计要被Gemini的1M、甚至10M给超越。
具体的打分见下表,但因为知乎排布的问题,这里放出截图,看高清图的朋友可以看我的这个notion page。
综合星级 | 一句话总结 | 访问网址 | |
---|---|---|---|
ChatGPT (GPT-4) - OpenAI * | 4.500 ⭐️⭐️⭐️⭐️⭐️ | 综合实力妥妥第一,20刀的包月费值 | https://chat.openai.com/ |
智谱清言 | 4.375 ⭐️⭐️⭐️⭐️ | 国产模型,除文本长度一般,没明显弱点 | https://chatglm.cn/ |
文心一言 - 百度 | 4.000 ⭐️⭐️⭐️⭐️ | 综合体验不错,但文本长度2K也太弱了 | https://yiyan.baidu.com/ |
Gemini - Google * | 3.500 ⭐️⭐️⭐️⭐️ | 生态最强,可以和Gmail、Drive、Map、YouTube打通 | https://gemini.google.com/ |
讯飞星火 | 3.375 ⭐️⭐️⭐️ | 都还行,但也没太出众的 | https://xinghuo.xfyun.cn/ |
通义千问 - 阿里巴巴 | 3.000 ⭐️⭐️⭐️ | 在对话方面的能力还不错,刷榜挺厉害的 | https://tongyi.aliyun.com/qianwen/ |
Moonshot Kimi | 3.000 ⭐️⭐️⭐️ | 超长的上下文,这点绝对这批模型中的王者 | https://kimi.moonshot.cn/ |
抖音豆包 | 3.000 ⭐️⭐️⭐️ | 比较低调,最近才知道它,App做的可爱 | https://www.doubao.com/ |
Minmax 海螺问问 | 2.875 ⭐️⭐️⭐️ | 超强的语音对话能力,还可10秒克隆自己的声音 | https://yingshi-ai.com/ |
Microsoft Copilot * | 2.750 ⭐️⭐️⭐️ | 套壳GPT4,体验差一点,好处是可以用免费的GPT-4 | https://copilot.microsoft.com/ |
百川大模型 | 1.125 ⭐️ | 功能少,且不提供Mobile app的 | https://www.baichuan-ai.com/chat |
显示详细信息
上述名称中带星号的是海外的服务器,所有你需要想一些办法以正常使用他们
给普通用户的建议
- 如果你在国内:作为普通用户可以考虑,可以开通一个ChatGPT Plus;同时选个国内的大模型,在外网无法使用的时候备用。
- 如果你在国外:其他的基本不用考虑了,ChatGPT Plus is All You Need!
附:各家大模型的App
ChatGPT、智谱清言、文心一言、讯飞星火
通义千问、Moonshot Kimi、抖音豆包、Microsoft Copilot、海螺问问
Gemini和百川没有iOS App,用网页了个截图:
Google Gemini