智云研-CSDN博客

原创新AI图像分割方法GenSAM：一个提示实现批量图片分割

CCTP思维链通过将任务通用的文本提示映射到任务下的所有图片上，生成个性化的感兴趣物体和其背景的共识热力图，从而获得可靠的视觉提示来引导分割。在具体任务中，给定一个任务描述，例如“伪装样本分割”，模型需要根据任务描述准确地分割图像中伪装的动物，而不依赖于手动提供每个图像的具体提示。这一研究的创新之处在于，通过提供通用任务描述，GenSAM模型可以批量地处理所有相关任务的无标注图片，而无需为每个图片手动提供具体的提示。论文链接:https://arxiv.org/pdf/2312.07374.pdf。

2024-01-09 16:21:38 900

原创英伟达推新AI语音识别模型Parakeet 号称优于Whisper

它们能够应对各种音频环境，并且在仅使用了64，000小时的数据集进行训练后，在基准数据集上实现了出色的词错误率（WER）表现，优于以往的模型。领先的开源对话 AI 工具包 NVIDIA NeMo宣布推出 Parakeet ASR 模型系列，这是一系列最先进的自动语音识别（ASR）模型，能够以出色的准确性转录英语口语。- 不同的模型大小:提供了0.6B 和1.1B 参数的两种模型，能够对复杂语音模式进行强大的理解。- 宽松的许可证:根据 CC-BY-4.0许可证发布，模型检查点可在任何商业应用中使用。

2024-01-08 15:22:41 1746

原创研究称：ChatGPT临床决策中取得显著成绩，准确率高达71.7%

ChatGPT通过连续提问的方式，模拟了临床工作流程的各个环节，包括鉴别诊断、诊断测试、最终诊断和临床管理。论文中指出，ChatGPT在所有36个临床测试题中的总体准确率达到71.7%，展现出了显著的临床决策能力。尤其值得一提的是，在初级鉴别诊断方面的准确率为60.3%，而在最终诊断方面则取得了最高的准确性。然而，对于药物剂量等数字准确性方面，ChatGPT目前尚存在一些挑战，需要在未来的研究中进一步优化。这项研究为ChatGPT在临床医疗决策中的应用提供了有力的证据，展示了其在医学领域中的巨大潜力。

2024-01-08 10:00:49 1005

原创周鸿祎分享2024年大模型发展趋势的十大预测：将出现杀手级应用

他强调创新不仅仅是发明新东西，也包括用新方法重塑“老业务”，并以微软等公司为例，成功地通过大模型重塑产品和业务流程。因此，他建议企业将“含AI量”纳入业务考核指标，以更全面的视角评估业务部门在AI上的资源投入、人才浓度、产品转化效率以及员工对AI开源项目和产品的熟悉程度等方面的表现。在“2023年风马牛年终秀”上分享了对2024年大模型发展趋势的十大预测，呼吁企业全面投入AI，树立“AI信仰”。周鸿祎认为，未来的创新机会将主要集中在大模型领域，因此提出了对大模型发展趋势的十大预测。多模态成为大模型标配;

2024-01-08 09:55:06 674

原创谷歌DeepMind最新研究：对抗性攻击对人类也有效，人类和AI都会把花瓶认成猫！

综上所述，实验2-4提供了趋于一致的证据，表明即使扰动幅度非常小，且观看时间不受限制，对人工智能网络产生强烈影响的从属对抗信号，也会在相同方向上影响人类的感知和判断。在实验3中，刺激物是一幅属于真实类别T的图像，其中一幅被扰动以改变ANN的分类，使其向目标对抗类别A靠拢，另一幅则使用相同的扰动，但左右翻转作为对照条件。试验交替要求参与者选择更像A的图像，或者更像第三类的图像。这种对照的作用是保留扰动的规范和其他统计量，但比实验1中的对照更为保守，因为图像的左右两边可能比图像的上下部分具有更相似的统计量。

2024-01-08 09:51:10 353

原创 2023年.AI域名销售额达550万美元 2024还要继续涨

然而，他坦言，自己错过了投资.AI域名的机会，很少涉足受欢迎的替代域名扩展，如.ME、.LY或.IO。在Elliot Silver发起的投票中，有人认为2024年.AI域名销售额可能达到800万美元，而有的预计可能达到1050万美元，还提到了.COM域名在这一领域的持续主导地位。根据域名投资专家Elliot Silver的最新文章，2023年公开报道的.AI域名销售额已经达到了550万美元，而2022年和2021年分别为90万美元和120万美元。

2024-01-04 09:43:42 489

原创 2024年生成式AI支出将翻倍，到2027年将超1500亿美元

IDC全球研究副总裁Rick Villars表示:“在2024年，AI无处不在的转变将进入关键的扩建阶段，企业将通过重大新投资的方式，旨在大幅减少与客户和员工生产力用例相关的时间和成本。IDC的副总裁Ritu Jyoti表示:“展望AI的未来，采用将传统AI与生成性创意相结合的全面方法将使得AI系统更加多才多艺，能够适应不断变化的挑战，同时促进颠覆性创新。未来几年，IDC预计GenAI的投资将经历自然发展阶段，企业将从实验阶段逐渐转向构建基础设施和训练数据模型，最终在各个领域实现技术的主流应用。

2024-01-03 14:01:18 409

原创智能编程助手！华为云CodeArts Snap免费公测：基于盘古研发大模型

用例代码简洁，需要人工修改的代码行数少，行覆盖率高。据介绍，本次华为云CodeArts Snap公测，基于智能生成和智能问答两大核心场景提供了支持多种主流IDE的插件。快速分析代码并自动生成解释说明，提高阅读代码的速度和效率，代码解释的正确性和简洁性表现好。开发者可进行任意研发知识的提问并获取答案，显著提高研发问题的解决效率。商用后，服务费用将在用户订购页面予以列明公示，用户可选择具体服务类型并按列明价格支付。旨在为开发者提供高效且智能的编程体验，提升研发人员的单兵作战能力。

2024-01-03 13:57:22 775

原创网络安全专家 Mikko Hyppönen 对 2024 年的五大 AI 网络威胁发出警告

然而，最近几个月，他们的担忧开始变为现实。然而，在转角处潜伏着一个更大的威胁——通向 AGI（人工通用智能）的危险道路。根据 Hyppönen 的预期，我们将在他的有生之年看到这种影响。前线战斗了数十年的 Mikko Hyppönen，这位 54 岁的专家最近在一次视频通话中向 TNW 透露了他对 2024 年最令人担忧的五大。在这种情况下，「深度」指的是诈骗的大规模。「我们正在构建的东西必须理解人性，并与人类分享其长期利益...... 好处是巨大的——比任何事情都大——但坏处也比任何事情都大。

2024-01-02 10:06:20 693

原创 ImageNet的故事：李飞飞自传《我所见的世界》中文节选

李飞飞教授的自传《The Worlds I See》（我所见的世界）英文版11月出版了，目前还没看到中文版。此前对李飞飞教授了解并不多，除了知道她是大名鼎鼎的ImageNet发起人，以及斯坦福SAIL人工智能实验室第一位女性主任。这次读了教授的自传，实话说，超出预期。没想到一位大科学家的文笔如此之好，教授以女性特有的细腻笔触，将自己事业和生活上的故事娓娓道来，行文之间流露着大学者的淡然，同时又把真实的工作生活经历讲得引人入胜。在阅读过程中，城主不止一次感觉到教授的行文叙事有一种强烈的电影蒙太奇感，

2024-01-02 09:54:31 2094

原创 AI技术可鉴定奢侈品真伪，准确率达到99.1%

鉴于商家们渴望利用AI热潮获利，对这一AI工具的兴趣可能会持续增长。目前，Entrupy的工具仅对奢侈品转售商开放，声称其技术可以鉴定巴黎世家、巴宝莉、古驰和路易威登等奢侈品牌的产品。值得注意的是，去年十月，TikTok宣布与Entrupy合作，用于鉴别其新电商平台TikTok Shop上的产品真伪。据公司称，Entrupy可以在几分钟内对产品真伪作出判断，并生成正式证书，供零售商展示，证明产品是真品。Entrupy的首席执行官告诉《Elle》，该技术目前仅能鉴定主要品牌的配饰，因为这些产品最容易伪造。

2023-12-27 09:28:36 660

原创免费！Pika 1.0正式向所有人开放网页版本试用资格

之前，Pika1.0官宣视频惊艳了不少人，但不少用户实际使用后发现生成的效果和宣传的有一定的差距，并没有传说中的那么完美。但有些风格的表现已经算不错了，而且这个阶段是所有用户都可以免费使用的。Pika1.0正式上线后，很多没有拿到内测资格的网友只能眼巴巴看着其他网友疯玩。而现在，Pika1.0宣布正式向所有人开放网页版试用资格，每个人都可以免费试玩。值得注意的是，Pika1.0非常擅长动漫风格的动物，轻轻松松就可以生成宫崎骏画风的动物。刚兴趣的用户可以自行尝试。

2023-12-27 09:27:51 796

原创李飞飞DeepMind全新「代码链」碾压CoT！大模型用Python代码推理，性能暴涨12%

然而，CoT只为最大的模型（d-3）带来性能优势，而CoC在较小的模型（a-1、b-1、c-1）上也优于直接问题解答基线，这表明较小的模型更容易输出结构化代码作为中间步骤，而不是自然语言。CoC 继承了（i）编写可执行代码（将精确的算法计算留给解释器）和（ii）编写语义问题的伪代码，并生成其输出（可视为简单的格式更改，LM对其具有很强的适应性）的优点，使LM能够「用代码思考」。正如人们所预期的那样，执行Python的方法在多项任务上都实现了100%的性能，如果代码正确，那么模型每次输出结果都会正确。

2023-12-25 09:40:41 1262

原创英伟达官方盘点2023年10大研究！「神经朗琪罗」秒变逼真大卫，用AI生成3D虚拟世界

在生成长视频和插帧时，使用mask-condition的方法，就是用一个二值的mask，通过给定一定的context帧的latent，来预测被mask的帧latent，可以通过迭代的方法生成长视频。当大规模部署在包含大量现实世界网球比赛示例的大型视频集上时，研究人员的方法可以学习复杂的网球击球技巧，并将多个镜头真实地链接在一起形成扩展的比赛，仅使用简单的奖励，并且无需明确的击球注释类型。在这个框架中，研究人员训练了一组专家降噪器，专门用于在生成过程的不同间隔中进行降噪，从而提高合成能力。

2023-12-25 09:22:57 1051

原创每秒生成110张图像！StreamDiffusion开源实时图像生成更强了

此外，它还通过先进的过滤技术提高了GPU利用效率，并有效管理输入和输出操作，以实现更顺畅的执行。其中，SD-turbo模型在1步的情况下，t2i每秒帧率达到106，i2i每秒帧率达到93。这个项目基于LCM和SDXL Turbo技术，每秒能够生成110张图像，为想要开发实时图像生成产品的人提供了一个值得关注的资源。它不仅在性能方面提供了显著的增强，而且通过多种技术优化了数据处理的流程，为想要开发实时图像生成产品的人提供了一个有价值的资源。对于对图像生成感兴趣的人来说，这个项目值得一试。

2023-12-25 09:15:15 844

原创谷歌推大语言模型VideoPoet：文本图片皆可生成视频和音频

VideoPoet的创新之处在于将语言模型应用于视频生成，支持多种任务，包括文本到视频、图像到视频、视频风格化、修复和修复以及视频到音频。此外，模型还具备视频风格化的能力，通过输入光流和深度信息，以及一些额外的文本提示，生成独特风格的视频。研究人员指出，VideoPoet的训练方式使其具有生成较长视频的潜力，通过在上一个视频的最后1秒的基础上预测下一个1秒，可以实现视频的不断延伸。此外，模型还支持对已生成视频进行交互式编辑，用户可以改变物体的运动，实现不同的动作，从而具有高度的编辑控制。

2023-12-21 09:32:18 1578

原创 Mistral AI CEO宣布于2024年开源GPT-4级别模型

最近，Mistral AI推出了基于MoE架构的8X7B模型，与GPT3.5和Llama270B等其他流行模型相媲美，并在大多数基准测试中以6倍更快的推理速度超越了Llama270B。一位用户表示对Mistral AI未来盈利的担忧，尤其是在他们称之为“Mistral Tiny”的7B模型发布后。此外，Mistral AI正致力于开发支持多语言的Mistral Medium模型，该模型在英语、法语、意大利语、德语、西班牙语和代码方面表现出色，在MT-Bench评分中达到8.6分，甚至超过了GPT3.5。

2023-12-19 16:01:30 871

原创 Gemini自曝中文用百度文心一言训练，网友看呆：大公司互薅羊毛？？

最后一轮我们直接从Gemini官方给出的开发环境入口进行测试。这回，在谷歌AI Studio是的，我在中文的训练数据上使用了百度文心。

2023-12-19 15:56:15 452

原创 GPT-2能监督GPT-4，Ilya带头OpenAI超级对齐首篇论文来了：AI对齐AI取得实证结果

例如，一个超级助手模型生成的代码达到一百万行，那么人类将无法为关键对齐相关任务提供可靠的监督，包括代码是否遵循用户的意图，助手模型是否如实地回答有关代码的问题，代码执行是否安全或危险，等等。研究表明，15 亿参数的 GPT-2 模型可以被用来激发 GPT-4 的大部分能力，使其达到接近 GPT-3.5 级别的性能，甚至可以正确地泛化到小模型失败的难题上。本文通过在真值标签上微调较小的预训练模型来构造弱监督者，他们把弱监督者的表现称为弱表现，并通过弱模型的预测来生成弱标签。

2023-12-18 17:32:43 978

原创 OpenAI官方的Prompt工程指南：你可以这么玩ChatGPT

由于模型具有固定的上下文长度，因此要总结一个很长的文档（例如一本书），我们可以使用一系列查询来总结文档的每个部分。如果有必要使用前面部分的信息来理解后面的部分，那么另一个有用的技巧是在文本（如书）中任何给定点之前包含文本的运行摘要，同时在该点总结内容。，从而获得更相关的答案，就像下面所展示的，同样是总结会议记录，采用这样的提示「用一个段落总结会议记录。复杂的任务往往比简单的任务具有更高的错误率，此外，复杂的任务通常可以被重新定义为更简单任务的工作流程。第六点是让模型扮演不同的角色，以控制其生成的内容。

2023-12-18 17:04:14 1429

原创清华阿里等共同开发基于扩散模型的框架DreamTalk 可以让人物头像说话

不仅嘴唇动作逼真，还能展现丰富的表情，使得动画更加生动。此外，DreamTalk还支持多种语言，无论是中文、英文还是其他语言，都能很好地同步。DreamTalk是一个由清华大学、阿里巴巴和华中科大共同开发的基于扩散模型的框架，可以让人物头像说话、唱歌并保持嘴唇的同步和模仿表情变化。DreamTalk是一个具有创新技术的框架，能够为人物头像赋予说话和表情的能力，为多种领域带来更加生动和丰富的体验。DreamTalk还具有说话风格预测的功能，能够根据语音预测说话者的风格，并同步表情，使得动画更加贴近原始音频。

2023-12-18 16:59:30 1071

原创训练效率提升40倍！开源图片生3D模型，Stable Zero123来啦

Zero123是基于Stability.ai开源的文生图模型Stable Diffusion进行了创新、微调，使其学会了控制相机的相对视角变换，然后基于视角的扩散方法进行去噪，最后使用3D重建方法进行模型重塑。Zero123通过一个合成数据集微调预训练了Stable Diffusion模型，使其学会相对相机视角变换的控制，而不破坏模型中的其他表示。这就能使Stable Diffusion模型输出的丰富2D纹理和形状，被完美地注入到了3D建模的过程中，形成3D模型。，相当于3D模型扩展插件。

2023-12-14 11:20:31 711

原创李飞飞携斯坦福联袂谷歌推出比肩Pika的视频生成模型W.A.L.T

围绕快速发展的人工智能的风险自去年Microsoft支持的Open AI发布ChatGPT以来，已经成为全球政策制定者日益关注的焦点。英国曾于去年11月主办了世界上第一个人工智能安全峰会，尽管人们在监管AI的必要性上达成了广泛共识，但全球监督这项技术的计划仍然任重道远。英国数据保护监管机构敦促公司在使用人工智能（AI）时认真考虑人们的隐私权，否则不仅可能面临罚款，还可能失去公众对该技术的信任。“你不能指望在你的产品或服务中使用人工智能，而不考虑隐私、数据保护以及如何保护人们的权利”，爱德华兹说。

2023-12-12 15:00:30 109

原创一条磁力链接席卷AI圈，87GB种子直接开源8x7B MoE模型

具体来说，「专家层」是较小的神经网络，经过训练在特定领域具有高技能，每个专家处理相同的输入，但处理方式与其特定的专业相一致；这种方法的工作原理是将复杂的任务划分为更小、更易于管理的子任务，每个子任务都由专门的迷你模型或「专家」处理。近日，《金融时报》报道了 Mistral AI 新一轮融资的动态：新一轮融资约 4 亿欧元，主要由股权组成，可能在下周官宣。Mistral AI 曾在 6 月获得了创纪录的 1.18 亿美元种子轮融资，还是在仅有 7 页 PPT 的情况下，据说这是欧洲历史上最大的种子轮融资。

2023-12-11 13:59:52 187

原创圣诞新奇惊喜：利用 AI 技术帮助圣诞老人创建手写信件

这些信件配有特殊的金色认证印章，并附有圣诞树或驯鹿等季节性装饰特色。在线注册后，每位用户将通过电子邮件获得两个兑换码，每个码可用于定制一封最多 400 字符的信件。「完美传递圣诞老人信息的神奇魅力，适合所有年龄段的孩子，」该公司宣称。Handwrytten 团队表示：「在圣诞老人忙于管理精灵、照顾驯鹿以及为他的大旅程进行最后的雪橇检查时，他信任。父母可以代表他们的孩子与圣诞老人联系，定制个性化的信息，随后这些信息将被制成信件并按指示邮寄给孩子们。节假期之前，圣诞老人和他的助手们迎来了一项革命性的技术支持。

2023-12-11 13:46:29 337

原创 Deepgram推创新文本转语音模型Aura 支持实时文本转语音

他们的团队不仅发展了能处理对话音频细微差异的新型转换器架构，还在处理各种语言、口音和方言的同时处理了口语中的不流畅和对话中的变化。Deepgram的目标是通过Aura在高吞吐量领域提供高效的文本转语音转换，以实现用户体验的平滑和可靠。Deepgram强调，Aura的发布仅是一个开始，他们期待在与客户和合作伙伴的合作中继续完善和扩展该模型，共同定义AI代理的未来。Aura的独特之处在于赋予AI代理更具人类特征的声音，包括及时的回应、在思考时使用自然的语音填充词汇，以及根据对话背景调整语调和情感。

2023-12-11 13:41:31 252

原创 AI入侵B站鬼畜区！网友辣评：不如传统“活字乱刷术”

尽管AI配音在鬼畜区的攻占步伐尚显缓慢，一些观点认为其在技术上的发展会为未来带来更多创新。之前爆红的“让霉霉说中文”和Eleven Labs的AI语音工具在网络上引起轰动，展示了AI技术在语音领域的强大潜力。虽然现阶段AI配音或许无法完全替代传统鬼畜视频的制作方式，但随着技术的进步，我们有望看到更多AI在玩梗方面的崭新表现。网友们提到，AI拟声无法保留原始素材的声音特点，失去了传统鬼畜视频中的一惊一乍的效果。然而，随着AI语音技术的崭露头角，视频制作者只需选用合适的AI配音工具，即可实现声音的高度还原。

2023-12-05 14:25:55 257

原创不到1000行代码，PyTorch团队让Llama 7B提速10倍

在过去的一年里，生成式 AI 发展迅猛，在这当中，文本生成一直是一个特别受欢迎的领域，很多开源项目如 llama.cpp、vLLM 、 MLC-LLM 等，为了取得更好的效果，都在进行不停的优化。举例来说，对于一个 7B 参数模型，每个参数都存储在 fp16 中（每个参数 2 字节），可以实现 107 tokens/s。Torch.compile：PyTorch 模型编译器， PyTorch 2.0 加入了一个新的函数，叫做 torch.compile ()，能够通过一行代码对已有的模型进行加速；

2023-12-05 14:21:28 889

原创字节跳动开源基于SD1.5的 MagicAnimate 一张照片秒变真人舞蹈视频

为使用MagicAnimate，用户需下载稳定扩散V1.5和MSE微调的VAE预训练基模型，并按照提供的结构组织检查点。用户可通过提供的bash脚本在单个GPU上运行推理，或使用另一个脚本在多个GPU上运行，以优化性能。用户可以选择一张喜欢的小姐姐的照片，然后通过输入一组动作，让AI根据这些信息生成一个舞蹈视频。其核心优势在于确保生成内容的时间一致性，通过提供预训练的稳定扩散V1.5和MSE微调的VAE基础模型，使用户能够轻松入门。，它只需要一张照片和一组动作，就能生成近似真人的舞蹈视频。

2023-12-05 14:18:27 926

原创 Perplexity发布两款LLM模型:pplx-7b-online和pplx-70b-online 可利用实时互联网数据查询

该公司推出了两款新的大语言模型（LLMs），分别是'pplx-7b-online'和'pplx-70b-online'，标志着首次通过API公开访问在线LLMs。这些评估的结果令人印象深刻。例如，在新鲜度标准下，pplx-7b和pplx-70b分别达到了1100.6和1099.6的估计Elo分数，超过了gpt-3.5和llama2-70b。通过API引入pplx-7b-online和pplx-70b-online模型解决了现有离线LLMs的局限性，并展示了在提供准确、实时和真实信息方面的卓越性能。

2023-12-04 10:28:08 881

原创英伟达狂卖50万台GPU！AI爆火背后，是显卡的争夺

目前，就运行人工智能训练和推理的服务器而言，用于大型语言模型训练的最流行服务器是配置了8个H100/A100 GPU的Nvidia DGX服务器，以及亚马逊的配置了16个定制协处理器（Inferentia 2）的AI推理服务器。而对于配备了许多定制协处理器的视频转码服务器，最流行的是拥有20个VCU（视频编码单元）的谷歌视频转码服务器，以及使用了12个可扩展视频处理器的Meta视频处理服务器。除了上面提到的巨头们，「民间」也有各种组织和公司纷纷采购NVIDIA的H100，以发展自己的业务，或者投资未来。

2023-12-04 10:21:44 190

原创谷歌公布2023年度最佳Android应用：ChatGPT排在第三

2024年即将到来，为庆祝新年的到来，谷歌公布了Play Store的2023年度最佳应用奖项。今年，谷歌引入了新的奖项类别，如最佳人工智能应用和最佳多设备应用，使得奖项的数量大幅增加。本文将主要关注谷歌评选的最佳应用奖项。这次的获奖应用涵盖了从知名应用到鲜为人知的应用。根据谷歌的博客所述，该奖项主要针对美国获奖应用进行评选。据说其他国家的获奖名单可能会有所不同，其他地区的名单与美国的名单基本一致。

2023-12-01 09:17:41 269

原创 GPT-4惨遭削弱，偷懒摸鱼绝不多写一行代码，OpenAI已介入调查

再次遭网友“群攻”，原因是“懒”得离谱!有网友想在Android系统开发一个能够与API实时交互的应用。于是把方法示例链接发给GPT-4，让它参考用Kotlin语言编写代码:没成想，和GPT-4一来二去沟通半天，GPT-4死活给不出一个能正常运行的。反而解释了一通“应该怎么做”。这让网友着实恼火，发推文吐槽“两周前能写好的代码，现在却不行了”。结果一下子炸出来更多网友:终于有人调查这事儿了。大伙儿连连表示遇到了类似问题:据网友所述，似乎从起，就开始出现这种情况了。

2023-11-29 16:14:55 98

原创尴尬！谷歌搜索展示AI生成图片替代了真实照片

对于这些AI生成的虚假照片，媒体向谷歌寻求回应，但谷歌的回应显得模板化，并且截至目前这些图片尚未被撤下。然而，文章指出，虽然AI生成的内容给谷歌等公司在网上整理大量人类和机器生成的内容的任务带来了新的挑战，但这种说法未能解决问题。据报道，谷歌搜索引擎在查询卡玛卡维沃·奥莱时，展示的顶部图片并非真实照片，而是一张由Reddit上的Midjourney社区生成的AI图像。更重要的是，这未能充分回应实际问题，即在一系列查询的第一个搜索结果中，充斥着AI生成的虚假信息，将它们在视觉上等同于现实。

2023-11-29 15:40:39 190

原创中国团队开源大规模高质量图文数据集ShareGPT4V

这一举措在多模态领域取得了显著的进展，超越了同级别的模型。这一研究为未来的多模态研究和应用提供了有力支持，也促使多模态开源社区关注高质量图像描述的开发，预示着更强大、智能的多模态模型的出现。通过对GPT4-Vision模型产生的10万条图像-文本描述数据进行深入研究，他们成功构建了这一高质量的数据集，涉及的内容丰富多样，包括世界知识、艺术评价等。最终，通过在预训练和有监督微调阶段同时使用ShareGPT4V数据集，他们得到了ShareGPT4V-7B模型，在多模态基准测试中取得了优异的成绩。

2023-11-29 15:29:08 732

原创单个A100生成3D图像只需30秒，这是Adobe让文本、图像都动起来的新方法

然而，RenderDiffusion 的局限性在于，训练数据需要特定类别的先验知识，数据中的对象也需要特定的角度或姿势，因此泛化性很差，无法对任意类型的对象进行 3D 生成。DMV3D 生成的基于文本的 3D 模型，也优于此前的方法。为了实现基于文本的 3D 生成，研究者使用了在 2D 扩散模型中通常会用到的、基于注意力的文本条件和不受类型限制的分类器。相比之下，DMV3D 是一个以 2D 图像为训练目标的单阶段模型，无需对每个资产单独优化，在消除多视图扩散噪声的同时，直接生成 3D NeRF 的模型。

2023-11-29 15:21:11 115

原创 2024 IEEE Fellow名单公布，上百位华人学者入选！

入选原因：对基于InP的超高速DHBT IC技术的增强和商业化做出的贡献。入选原因：为移动和系统安全领域的自动漏洞发现、代码强化和监控做出的贡献。入选原因：对认知无线电和网络中的稀疏信号处理和智能天线做出的贡献。入选原因：对STT-MRAM和GMR记录头的开发与产品化的贡献。入选原因：在微流控生物芯片的设计、自动化和测试方面做出的贡献。入选原因：对无线网状网络和视频流技术的开发与标准化做出的贡献。入选原因：对线性和旋转机器及驱动器的设计和控制做出的贡献。

2023-11-27 09:35:22 293

原创清华大学提出全新加速训练大模型方法SoT

通过引导LLMs构建答案的骨架，然后进行并行扩展，SoT有效地提高了响应速度，为人工智能领域的动态思维过程开辟了新的探索方向，鼓励向更高效、更多才多艺的语言模型发展。近日，微软研究和清华大学的研究人员共同提出了一种名为“Skeleton-of-Thought（SoT）”的全新人工智能方法，旨在解决大型语言模型(LLMs)生成速度较慢的问题。为了评估SoT的有效性，研究团队对12个不同领域的模型进行了广泛测试，使用了Vicuna-80数据集，其中包含了来自编码、数学、写作和角色扮演等各个领域的问题。

2023-11-24 11:03:45 241

原创西班牙首个类人工智能模特每月赚超过 1 万欧元 Instagram上有12.1万个粉丝

The Clueless 创始人 Rubén Cruz 解释说，创建 Aitana 的目的是为了给与机构合作的品牌提供一个更可靠的模特，不受人类影响者面临的挑战影响。与传统的拍摄和换装不同，The Clueless 的团队通过人工智能和设计专家的合作，利用 Photoshop 来设计场景，让模特在虚拟环境中体验周末在马德里等城市的生活。他们每周都会团队会议，规划 Aitana 的生活方式，确定她的每周活动，选择要访问的目的地，并为她的粉丝精心策划照片，让他们跟上她的生活。

2023-11-24 11:02:06 231

原创 OpenAI“宫斗”新进展！Sam Altman将重返OpenAI担任首席执行官董事会成员改动

早前的OpenAI董事会，包括其首席科学家Ilya Sutskever、独立董事D’Angelo、科技企业家Tasha McCauley和乔治城大学安全与新兴技术中心的Helen Toner，因其突然的决定面临激烈的公众批评，他们从未提供全面的解释。OpenAI表示，他们已经达成了与Altman的“原则上的协议”，并且公司将进行董事会改组，剔除了上周做出具有争议的解雇决定的一些成员。在新的董事会和Satya的支持下，我期待着回到OpenAI，并在我们与微软的强大合作基础上继续发展。

2023-11-23 09:48:53 96

01：第一节：语音技术应用.mp4

空空如也