大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,所以创建了“AI信息Gap”这个公众号,专注于分享AI全维度知识,包括但不限于AI科普,AI工具测评,AI效率提升,AI行业洞察。关注我,AI之路不迷路,2024我们一起变强。
现在的AI领域真的是太卷了!就在前几天,Kimi Chat开启200万字上下文的内测,我写了一篇文章来介绍:卷起来!Kimi Chat开启200万字上下文内测!苹果与谷歌商谈在新iPhone中使用Gemini AI!。
今天(3月22日),谷歌Gemini 1.5 Pro向所有人开放,不需要再排waitlist。同样是今天,阿里通义千问宣布升级,向所有用户免费开放1000万字的长文档处理功能。也同样是今天,据知情人士表示,百度文心一言下个月将进行版本升级,届时将开放200万-500万长度的长文本处理能力。目前,文心一言的文本长度上限大致在2.8万字。
谷歌Gemini 1.5 Pro免费开放
谷歌Gemini 1.5 Pro是谷歌在今年2月15日推出的一款100万token上下文长度的LLM,100万token是当时最长的上下文窗口。在国外的LLM中,具有100万token能力的LLM包括Gemini 1.5 Pro和Claude 3。其中Claude 3需要联系Claude官方进行定制才能够体验100万token上下文。作为对比,GPT-4的最新模型上下文窗口是128K。
Gemini 1.5 Pro体验地址:https://aistudio.google.com
更多关于Gemini 1.5 Pro的介绍和初步测试也可以看我之前的文章:
如何体验Gemini 1.5 Pro
注意,由于谷歌并不在中国地区开放服务,所以需要能够登录谷歌的特殊工具才能使用Gemini 1.5 Pro,最好是美国IP。
-
打开上面Gemini 1.5 Pro的体验地址,用谷歌账号登录。
-
选择
Use Google AI Studio
,注意,这一步不能选错,因为Gemini 1.5 Pro仅开放了通过Google AI Studio使用的窗口,并未开放API使用。
-
勾选各项使用规范,然后点击
Continue
。
-
到这一步,就大功告成了!Gemini 1.5 Pro支持文本、图片、视频等多模态输入,目前体验下来还是非常香的。
阿里通义千问升级1000万字长文档处理功能
谷歌Gemini 1.5 Pro有一定的使用门槛,Kimi Chat的200万上下文需要排队,目前我们国内用户能直接上手的就是阿里通义千问了!3月22日,阿里通义千问宣布升级,向所有人免费开放1000万字的长文档处理功能,成为全球文档处理容量第一的AI应用。
长文档处理是大模型的一个重要能力,对于大模型理解信息的深度和广度有重要意义。阿里方面称,即日起,所有金融、法律、科研、医疗、教育等领域的专业人士,都可通过通义千问网站和APP快速读研报、分析财报、读科研论文、研判案情、读医疗报告、解读法律条文、分析考试成绩、总结深度文章。
比如在金融领域,上传一份公司财报,通义千问即可自动提取和总结公司各业务的营收情况和利润增长等核心信息,生成公司整体业绩表现的总结。上传公司不同时期的财报后,通义千问可生成公司在这一阶段内的业务变化、业绩趋势并进行财报分析。在法律领域,律师和法官通常需要阅读数十万甚至上百万字的法律文档,人肉阅读耗时耗力,通义千问能够快速阅读和分析法律文件,迅速掌握法律条文要点,输入特定案件信息后,通义千问还可给出相应的判罚建议。
通义千问目前支持一次性上传100个文件,每个文件的大小上限为150MB,支持的文件格式包括PDF、Word、Excel、Markdown、EPUB、Mobi和txt。
通义千问体验地址:https://tongyi.aliyun.com/qianwen/
关于通义千问的介绍和测评,可以看我之前的文章:
总结
有条件的小伙伴建议直接体验Gemini 1.5 Pro,它的100万token上下文以及多模态输入(包括视频)体验是非常好的,至少目前能支持视频输入来直接处理和分析的LLM,仅此一家,ChatGPT不可以,Claude 3也不可以。
嫌麻烦的朋友也可以直接在阿里通义千问上体验长文本处理功能,如果阿里说的1000万的窗口是真实的,那么它必将会是目前全世界上下文窗口最长的LLM,没有之一。并且通义千问的综合表现目前是国内的LLM中也是TOP级别的,我个人强烈推荐使用。详细的测评可以看我上面列举的之前的一些文章。
精选推荐
都读到这里了,点个赞鼓励一下吧,小手一赞,年薪百万!😊👍👍👍。关注我,AI之路不迷路,原创技术文章第一时间推送🤖。