每日一看大模型新闻（2024.1.17）书生·浦语2.0大模型开源；已证实混合多个小模型性能比肩GPT3.5；20%的杨幂+80%的泰勒长什么样？小红书风格化AI来了，可兼容SD和ControlNet

本文链接：https://blog.csdn.net/liuxiuxiu3/article/details/136815663

1.产品发布

1.1机器人领域首个开源视觉-语言操作大模型，RoboFlamingo框架激发开源VLMs更大潜能

发布日期：2024.1.17

机器人领域首个开源视觉-语言操作大模型，RoboFlamingo框架激发开源VLMs更大潜能

主要内容：大模型研究加速，多模态理解与时空推理能力提升。机器人操作任务对语言理解、场景感知和规划要求高。ByteDance Research基于OpenFlamingo开发RoboFlamingo，易用、适用于语言交互机器人任务。在CALVIN数据集上验证，仅用1%带语言标注数据即达SOTA性能。研究测试不同策略和结构的影响，得出有趣结论。

项目主页：RoboFlamingo | Vision-Language Foundation Models as Effective Robot Imitators

代码地址：GitHub - RoboFlamingo/RoboFlamingo: Code for RoboFlamingo

论文地址：https://arxiv.org/abs/2311.01378

1.2书生·浦语2.0大模型开源

发布日期：2024.1.17

书生·浦语2.0正式开源，回归语言建模本质，综合性能领先开源社区

主要内容：上海AI实验室与商汤科技联合香港中文大学和复旦大学正式发布了新一代大语言模型书⽣·浦语2.0（InternLM2）。InternLM2是在2.6万亿token的高质量语料上训练得到的，沿袭第一代书生·浦语（InternLM）的设定，包含7B及20B两种参数规格及基座、对话等版本，并提供免费商用授权。书生·浦源大模型挑战赛也同日启动，首期赛事包含行业应用和创新创意两个赛道，即日起面向全球进行场景和赛队征集。

开源地址：

GitHub - InternLM/InternLM: Official release of InternLM2 7B and 20B base and chat models. 200K context support

https://huggingface.co/internlm

魔搭社区

2.技术更新

2.1 20%的杨幂+80%的泰勒长什么样？小红书风格化AI来了，可兼容SD和ControlNet

发布日期：2024.1.18

20%的杨幂+80%的泰勒长什么样？小红书风格化AI来了，可兼容SD和ControlNet

主要内容：InstantID AI是一个强大的图像风格化工具，它能够通过单张面部图像在短时间内实现多种风格的变身，无需用户亲自出镜或进行繁琐的后期处理。该技术基于扩散模型，可与流行的文本到图像预训练扩散模型（如SD1.5、SDXL）无缝集成，作为插件使用。InstantID由三个关键组成部分：捕获人脸信息的ID embedding、轻量级适配模块和IdentityNet网络。它的优势在于不需要训练UNet，保留原始模型的生成能力，不需test-time调整，实现高保真度和文本可编辑性。实验对比显示，InstantID在保真度和文本控制能力上优于其他方法。

2.2三个臭皮匠顶个诸葛亮？可能是真的，已证实混合多个小模型性能比肩GPT3.5

发布日期：2024.1.18

三个臭皮匠顶个诸葛亮？可能是真的，已证实混合多个小模型性能比肩GPT3.5

主要内容：该内容主要讨论了数字生命的概念，即通过将人类的意识上传到智能终端，以数据的形式永久存储，使人类的思想意识得以脱离躯体而独立存在。近期新加坡南洋理工，商汤科技，上海 AI 实验室共同推出的一项同名项目「Digital Life Project」，让曾经遥远不及的科幻情节照进了现实。该项目通过 AI 技术和动作合成技术，智能衍生剧情，创造出能够在数字环境中模拟交互的自主 3D 虚拟角色。这些角色不仅能进行对话，还拥有自己的人格，能够感知所处的不同社交环境，做出相对应的身体动作来表达情感和反应。同时，超越 2D 虚拟沙盘的 3D 场景建设和能够交互的动作设计更给人们带来了沉浸式的体验。

论文链接：https://arxiv.org/pdf/2401.02994.pdf

模型链接：https://huggingface.co/ChaiML

2.3 ConvNet与Transformer谁更强？Meta评测4个领先视觉模型，LeCun转赞

发布日期：2024.1.18

ConvNet与Transformer谁更强？Meta评测4个领先视觉模型，LeCun转赞

主要内容：研究人员比较了ConvNet/ViT和supervised/CLIP模型在ImageNet之外的指标。他们发现，每种模型都有其独特的优势，模型的选择应根据目标用例进行。监督的ConvNeXt模型在许多基准测试中表现优于监督的VIT，更好地校准，对数据转换不变，表现出更好的可转移性和健壮性。在合成数据上，ConvNeXt的表现也优于ViT。另一方面，ViT有较高形状偏向。尽管CLIP模型在可转移性方面更好，但监督的ConvNeXt在这项任务上表现出了竞争力。监督模型更擅长稳健性基准，可能是因为这些模型是ImageNet的变体。CLIP模型具有较高的形状偏差，与其ImageNet精度相比，分类错误较少。

论文地址：https://arxiv.org/pdf/2311.09215.pdf

2.4 TikTok：内测AI生成歌曲功能

发布日期：2024.1.18

TikTok can generate AI songs, but it probably shouldn’t - The Verge

主要内容：海外版抖音TikTok正在测试AI生成歌曲功能AI Song，该功能由大型语言模型Bloom提供支持。用户可以在发布视频时在文本框中写下歌词，AI Song将会生成相应的歌曲，并且用户可以切换歌曲的流派。

2.5用大模型帮程序员找Bug，中科院剖析102篇论文总结出这些方案

发布日期：2024.1.17

用大模型帮程序员找Bug，中科院剖析102篇论文总结出这些方案

主要内容：中科院在软件测试领域应用大模型进行了综述。他们收集了102篇论文，发现大模型主要应用于软件测试生命周期的后段，用于生成测试用例、分析测试报告等。研究还从软件测试和大模型两个视角进行分析，并指出结合大模型与传统测试技术可以提高测试效率和软件质量。然而，也存在挑战，如实现高覆盖率、解决测试预言问题、精准评估性能等。此外，大模型的应用也带来了研究机遇，如利用大模型进行更多样化的软件测试任务和阶段、应用于更广泛的测试类型和软件、整合先进的提示工程技术以及与传统技术结合。

论文Arxiv链接：https://arxiv.org/abs/2307.07221

GitHub链接：GitHub - LLM-Testing/LLM4SoftwareTesting

3.商业动态

3.1智源FlagEval大模型评测1月榜单发布

发布日期：2024.1.17

FlagEval 2024年1月榜｜平行测验增强主观评测可靠性，新增Mixtral、DeepSeek、MindSource等结果

主要内容：FlagEval大语言模型测评榜单1月榜单已发布，本期新增了最近开源的Mistral（MoE模型）、BlueLM、MindSource、SUS-chat-34B、DeepSeek等模型的评测结果，并使用平行测试来增强主观评测的可靠性。评测结果显示，Mixtral-8x7B系列模型在英文能力方面远优于中文能力，其基座模型的英文能力接近Aquila2-34B；vivo发布的BlueLM系列模型在中英文能力上较为均衡，在10B以下模型中整体评测结果位于中上游。

测评结果：FlagEval

4.其他资讯

4.1工信部发布AI产业建设指南草案

发布日期：2024.1.17

公开征求对《国家人工智能产业综合标准化体系建设指南》（征求意见稿）的意见

主要内容：工业和信息化部科技司公开征求对《国家人工智能产业综合标准化体系建设指南》（征求意见稿）的意见，公示时间为2024年1月17日至2024年1月31日。指南提出到2026年，共性关键技术和应用开发类计划项目形成标准成果的比例达到60％以上，新制定国家标准和行业标准50项以上，开展标准宣贯和实施推广的企业超过1000家，参与制定国际标准20项以上。

pdf地址：

https://miit.gov.cn/cms_files/filemanager/1226211233/attach/202311/7240bd43f3fc4b598351f9b135e68e4a.pdf