大模型日报-20240130

贾扬清的LeptonSearch开源,只需500行Python代码即可构建对话搜索;康奈尔大学研究结合量子计算与AI设计分子;巨头如Meta发布提示工程指南,AI辅助编程引发代码质量讨论;阿里云的PAI-ChatLearn展示了大规模RLHF训练框架。
摘要由CSDN通过智能技术生成

500行代码构建对话搜索引擎,贾扬清被内涵的Lepton Search真开源了

在这里插入图片描述
来了,贾扬清承诺的 Lepton Search 开源代码来了。前天,贾扬清在 Twitter 上公布了 Lepton Search 的开源项目链接,并表示任何人、任何公司都可以自由使用开源代码。也就是说,你也可以用不到 500 行 Python 代码构建自己的对话搜索引擎了。今天,Lepton Search 又登上了 GitHub trending 榜单。此外已经有人将这个开源项目用来构建自己的 Web 应用程序了,并表示质量非常高,与 AI 驱动的搜索引擎 Perplexity 不相上下。

基于量子辅助深度学习的逆向分子设计

在这里插入图片描述
康奈尔大学Fengqi You教授团队,通过结合量子计算(QC)与生成式AI的优势,提出了一个新颖的逆向分子设计框架。该框架利用QC辅助的深度学习模型来学习和模拟化学空间,从而预测并生成具有特定化学性质的分子结构。生成式AI在此过程中起着核心作用,它能够从大量的分子数据中学习潜在的结构-性质关系,并生成新的分子候选物,这些分子不仅符合预设的性质,还考虑到合成的可行性。量子计算的加入则为这一过程提供了高效的计算能力和优化算法,克服了传统计算机在处理大规模化学系统时的性能瓶颈。通过这种量子-经典混合计算框架,研究人员能够在复杂的化学空间中进行高效、有效的分子设计,为新分子的发现和材料科学的进步开辟了新途径。

百川智能上新超千亿大模型Baichuan 3,冲榜成绩:若干中文任务超车GPT-4

在这里插入图片描述
走月更路线的百川智能,在年前猛地加速,变成了半月更:发布了超千亿参数的最新版本大模型Baichuan 3,是百川智能基础模型第三代——就在20天前,这家由王小川创办的大模型公司,刚刚发布过角色大模型Baichuan-NPC。更具标志性的是,百川智能这次模型更新,重点展示了模型在医疗场景的能力。

Meta官方的Prompt工程指南:Llama 2这样用更高效

在这里插入图片描述
随着大型语言模型(LLM)技术日渐成熟,提示工程(Prompt Engineering)变得越来越重要。一些研究机构发布了 LLM 提示工程指南,包括微软、OpenAI 等等。最近,Llama 系列开源模型的提出者 Meta 也针对 Llama 2 发布了一份交互式提示工程指南,涵盖了 Llama 2 的快速工程和最佳实践。

AI也造代码屎山!研究发现GitHub Copilot代码可维护性差,偏爱“无脑重写”而非重构复用已有代码

在这里插入图片描述
AI帮忙写代码程序员用了都说好,但代码质量真的靠谱吗?结果或许令你大跌眼镜。一家名为GitClear的公司分析了近四年超过1.5亿行代码后发现,随着GitHub Copilot工具的加入,代码流失率(即代码写入后不久又被返工修改、删除的情况)出现了显著上升:2023年为7.1%,而2020年时仅为3.3%,翻了一番。

OpenAI 董事会主席 Bret Taylor 的 AI 公司估值 10 亿美元!红杉美国领投,专注企业解决方案

在这里插入图片描述
Bret Taylor,前 Salesforce 联合 CEO,他曾创立了一家开发了基于云的文字处理器和电子表格应用 Quip 的软件公司,2016 年以约 7.5亿 美元的价格出售给了 Salesforce。去年,Taylor 加入了 OpenAI 董事会,担任董事长,并在与 ChatGPT 制造商前董事会的一项协议中,帮助重新任命了被罢免的 CEO Sam Altman。外媒预计 Taylor 的角色是临时性的,以便他能够回到自己的公司。这家公司名为 Sierra 的 AI 初创公司,由 Bret Taylor 和前谷歌高管,曾领导谷歌 AR/VR 工作的 Clay Bavor 共同创立,正进行一轮新的融资活动。

从零手搓MoE大模型,大神级教程来了

在这里插入图片描述https://huggingface.co/blog/AviSoori1x/makemoe-from-scratch

传说中GPT-4的“致胜法宝”——MoE(混合专家)架构,自己也能手搓了!Hugging Face上有一位机器学习大神,分享了如何从头开始建立一套完整的MoE系统。这个项目被作者叫做MakeMoE,详细讲述了从注意力构建到形成完整MoE模型的过程。作者介绍,MakeMoE是受到OpenAI创始成员Andrej Karpathy的makemore启发并以之为基础编写的。makemore是一个针对自然语言处理和机器学习的教学项目,意在帮助学习者理解并实现一些基本模型。同样,MakeMoE也是在一步步的搭建过程中,帮助学习者更深刻地理解混合专家模型。

elvis:多模态大型语言模型的进展

在这里插入图片描述
elvis:最近几周,我们看到了多模态大型语言模型(MM-LLMs)研究论文的激增。

在这些出版物中,有一项很好的综合调查,总结了26种现有的MM-LLMs。

它还包括增强这些模型的训练配方、洞察力和一些有前途的研究方向。

能够轻松调整和增强这些系统真是不可思议。这也要感谢最近围绕MM-LLMs的开源工作,包括数据集、基准测试和模型。

Jeremy Howard 分享《CUDA-MODE 讲座3:CUDA入门》:面向所有Python背景的人的CUDA入门

在这里插入图片描述
CUDA-MODE 讲座3:CUDA入门

视频:https://youtu.be/6E7K4SGlXas?si=x1pCOaGdRZrvDMqw

笔记本:https://github.com/cuda-mode/lecture2/blob/main/lecture3/pmpp.ipynb

🏎️面向所有Python背景的人的CUDA入门!

@jeremyphoward 首先在Python中构建内核(使用blockIdx和threadIdx) -> 然后将它们转换为CUDA C。

如何从头开始构建大型语言模型

在这里插入图片描述
在如何从头开始构建大型语言模型的书中,读者将了解如何从内到外 构建 LLMs 的工作。作者将指导用户逐步创建自己的LLM阶段,用清晰的文本、图表和示例解释每个阶段。GitHub 中作者公开啦相关代码,同时也可以进行学习,感兴趣细节的朋友们可以读一读。

The Future of Prosumer: The Rise of “AI Native” Workflows

文章概述了基于人工智能原生工作流的未来展望。在这一领域,人工智能为创始人提供了完全重塑工作流程的机会,预示着全新一代完全基于人工智能的公司的诞生。这些公司将以现有技术为起点,围绕人工智能独特的生成、编辑和组合能力构建新产品。文章强调,人工智能原生平台将提升用户与软件的交互方式,使用户能够将低技能任务委托给人工智能助手,专注于更高层次的思考。同时,人工智能还将帮助用户解锁全新的技术和审美技能,缩小创造力与技艺之间的差距,让每个人都能成为新一代的“专业用户”。

2023年大语言模型融合技术调研与实践指南

本文探讨了大语言模型融合技术,介绍了五种融合算法:任务向量模型编辑(EMTA)、球面线性插值(SLERP)、修整选举合并(TIES)、剪枝缩放(DARE)和直通(Passthrough)。这些技术允许在不重新训练或使用GPU的情况下,通过合并不同模型的参数来增强模型能力。文章通过mergekit工具包展示了如何实现这些算法,并提供了配置示例。特别提到了使用SLERP方法创建的Marcoro14-7B-slerp模型,在Open LLM排行榜上表现优异。这些方法为未来语言模型的能力模块化组装提供了新途径。

PAI-ChatLearn :灵活易用、大规模 RLHF 高效训练框架(阿里云最新实践)

PAI-ChatLearn 是阿里云PAI团队开发的大规模RLHF(基于人类反馈的强化学习)训练框架,专为大模型设计,支持SFT(有监督指令微调)、RM(奖励模型)和RLHF全流程训练。该框架采用灵活的并行策略,包括数据并行、模型并行和任务并行,以适应不同规模的模型训练需求。PAI-ChatLearn 提供了高效的参数同步机制和环境隔离,支持不同后端的推理和训练,简化了模型封装和开发流程。在实际应用中,PAI-ChatLearn 已成功支持175B+175B规模的模型训练,并在性能上优于业界框架,有助于用户专注于模型效果的优化。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

程序员王小黑

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值