![](https://img-blog.csdnimg.cn/20190918135101160.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
AI master‘s Road
文章平均质量分 94
AI大师之路
大风车滴呀滴溜溜地转
为天地立心,为生民立命,为往圣继绝学,为万世开太平。
展开
-
论文精读:TASKBENCH: BENCHMARKING LARGE LANGUAGE MODELS FOR TASK AUTOMATION
LLM 带动了任务自动化的发展,它将用户指令描述的复杂任务分解为子任务,并调用外部工具来执行它们,在 Agent 中发挥着核心作用。但是目前还缺少系统化、标准化的基准来催 LLM 任务自动化的发展。任务自动化可以分为三个关键阶段:任务分解、工具调用和参数预测。为了生成高质量的评估数据集,作者引入了工具图的概念来表示用户意图中分解的任务,并采用反向指令方法来模拟用户指令和注释。作者还提出了 TASKEVAL,从不同方面评估 LLM 的能力,包括任务分解、工具调用和参数预测。原创 2024-05-28 19:30:57 · 295 阅读 · 0 评论 -
这应该是全网第一篇全面解读OpenAI Sora报告的文章,精读报告:Video generation models as world simulators
今天是2024年2月16号,大年初七,年还没过完,早晨起来朋友圈就被Sora刷屏了。本来以为没啥,都是公众号或者视屏啥的,都没点开看,直到看到我导也发了Sora的文章,我就知道这个事情不简单了。先来看一段非常炸裂的效果,就是下面这个视频。真的,如果你不跟我说这是AI生成的,我还以为是哪个电影的镜头呢。这场景,这运镜,这清晰度,放大之后连脸上的斑都清晰可见,Oh my God,现实不存在了,现实真的不存在了。Tokyo walk。原创 2024-02-16 20:40:23 · 2247 阅读 · 1 评论 -
GPT:你知道这五年我怎么过的么?
GPT系列的五年发展之路。原创 2023-04-22 11:29:18 · 2732 阅读 · 3 评论 -
作为国产大模型之光的智谱AI,究竟推出了多少模型?一篇文章带你详细了解!
总的来说,还是挺期待未来可以有所突破的!!!但是我觉得这个大模型算是国内的很不错的大模型了,起码gpt49有的它都有,虽然是打折版的。并且使用也免费,已经挺够意思了。正如张鹏所言,和国外大模型相比,国内的大模型发展起步晚一些,加上高性能算力的限制和数据质量的差距等等,国内研发的大模型无论规模还是核心能力,与世界先进水平还存在一年左右的差距。但是未来一年,我们将有希望看见国内大模型的崛起之路!pvs=4。原创 2024-02-15 16:06:08 · 744 阅读 · 0 评论 -
论文精读:InternImage: Exploring Large-Scale Vision Foundation Models with Deformable Convolutions
视觉基座模型还没有基于CNN的大模型CNN不具有长距离依赖性和自适应空间聚合能力改进了DCNv2一方面是模型做大之后效果怎么样,另一方面关注是否解决了长距离依赖性和自适应空间聚合能力。原创 2024-01-29 12:58:22 · 1163 阅读 · 0 评论 -
论文精读:VMamba Visual State Space Model
Institution: 中国科学院大学(UCAS), 华为, 鹏城实验室Summary: CNNs和ViTs是视觉特征表示领域常用的两个基座模型,CNNs具有显著的可扩展性,线性复杂度与图像分辨率相关,ViTs的拟合能力更强,通过注意力机制的全局感受野和动态权重可以有更好的表现,但是复杂度是二次的。本文提出了一种新的架构——VMamba(Visual State Space Model),继承了CNNs和ViTs的优点,同时还提高了计算效率,在不牺牲全局感受野的情况下可以达到线性复杂度。原创 2024-01-23 14:30:11 · 7057 阅读 · 0 评论 -
论文精读:Improving CLIP Training with Language Rewrites
Summary: CLIP模型通过对比损失进行训练,这通常依赖于数据增强来防止过拟合,但是在CLIP的训练过程中,只对图像进行了数据增强,并没有对文本进行数据增强。基于此,这篇文章提出了文本增强CLIP(Language augmented CLIP, LaCLIP),利用大语言模型的ICL能力,对每张图片的文本描述进行重写。重写的文本保持原意不变,在句子结构和文本表达上具有多样性。在模型训练的时候,随机选择采用原始文本还是重写的文本。原创 2024-01-22 14:26:09 · 1106 阅读 · 0 评论 -
论文精读:Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models
大规模视觉-语言模型(Large Vision-Language Models,LVLMs)基本上使用得都是同一个视觉词表——CLIP,它也适用于大部分的视觉任务。但是,对于一些特殊的任务往往需要更密集和更细致的感知,比如文档OCR和图标理解,特别是对于非英语场景,CLIP的词表在分词时往往比较低效,并且还可能会遇到无法分词的问题。基于此问题,作者提出了Vary(Vary),一种有效扩展LVLMs视觉词表的方法。原创 2024-01-12 12:09:04 · 1390 阅读 · 1 评论 -
论文精读:EVA-CLIP Improved Training Techniques for CLIP
Summary: 作者使用了一系列方法来提升CLIP的训练效率和效果,包括新的表示学习方法、更换优化器和数据增强技术,使得EVA-CLIP相比于具有相同参数量的模型徐连成本更小,性能更优。原创 2024-01-10 14:29:00 · 1689 阅读 · 0 评论 -
论文精读:HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face
解决不同领域和多种模态的复杂任务是通往AGI的关键,尽管现在有各种各样的AI模型,但是它们没有办法自主地处理复杂任务,而LLMs恰好可以作为管理者控制现有的AI模型来完成任务。本文提出的HuggingGPT就是一个基于ChatGPT的Agent,可以利用HuggingFace上各种各样的AI模型来完成任务。首先通过ChatGPT根据用户的请求制定任务计划,然后根据HuggingFace上模型的功能描述选择可用的AI模型,之后通过这些模型来执行子任务,最后总结执行结果并给出响应。原创 2024-05-22 16:33:15 · 667 阅读 · 2 评论