Mantis-ML 2.0识别基因-疾病关联，Beam Pro实现无需后期的AR视频拍摄与三维空间应用

最新推荐文章于 2025-04-26 21:25:16 发布

一支烟一朵花

最新推荐文章于 2025-04-26 21:25:16 发布

阅读量2.8w

点赞数 9

文章标签： ar 人工智能业界资讯神经网络

本文链接：https://blog.csdn.net/ccc7574/article/details/139685330

版权

一支烟花官网：

https://agifun.love

智源社区

Sci. Adv. | 治疗性遗传靶点的全表型识别

DRUGAI今天为大家介绍的是来自Dimitrios Vitsios团队的一篇论文。人类基因组数据集的持续扩展推动了治疗靶点的识别，然而，从基因注释中提取基因-疾病关联仍然具有挑战性。在这里，作者介绍了Mantis-ML 2.0这一框架，它整合了阿斯利康的生物学洞察力知识图谱与多个表格数据集，评估了整个表型组的基因-疾病概率。作者使用图神经网络，捕捉图的整体结构，并在数百个平衡数据集上通过一个鲁棒的半监督学习框架进行训练，以提供人类外显子组的基因-疾病概率。Mantis-ML 2.0结合了自然语言处理，自动化数千种疾病的疾病相关特征选择。改进的模型展示了平均6.9%的分类能力提升，实现了在52...

来源：http://mp.weixin.qq.com/s?__biz=MzU2ODU3Mzc4Nw==&mid=2247505278&idx=1&sn=9de788716a5e6139feb6778ac41e6e7f&chksm=fda040c151eb641d1d982e4ce44860099c9954b74cc676c1e5bc24ffb45a058cbd368b484fe9&scene=0&xtrack=1#rd

无需2万的Vision Pro，1299玩转空间视频

克雷西发自三里屯量子位 | 公众号 QbitAI只要一台“手机”，普通用户也能随时随地拍摄出AR大片了。这个看似手机的设备，就是AR独角兽XREAL最新推出的空间计算终端Beam Pro。不同于传统的3D拍摄，用它拍AR视频，不用后期处理，立马就能看，效果是这样婶儿的：而且还能把2D应用迁移到三维空间，甚至把像Xbox、PS5这样的游戏主机，也串流到AR世界当中。配合上AR眼镜，不必坐到电视前也能看电影、打游戏，再也不必担心会有人走过挡住画面了。可以说，Beam既是小型3D摄像机，又是AR终端驱动器，还是一个串流终端，平时当成普通平板来用也没问题。价格也十分亲民，6+128GB版本只要12...

来源：http://mp.weixin.qq.com/s?__biz=MzIzNjc1NzUzMw==&mid=2247731805&idx=4&sn=944941a9f1db5bd1c3d8b5b8e27b8801&chksm=e9b303f415e5d7babefb4103528b8c1ca09a955d9fc3f796c3fcb8f15e09c6517019ece71075&scene=0&xtrack=1#rd

Neuralink劲敌破纪录，4096个电极微创植入人脑！脑机接口有望进入「5G」时代

新智元报道编辑：乔杨【新智元导读】在脑机接口领域取得突破性进展的公司不止Neuralink一家。Precision Neuroscience发布公告称，他们采用与Neuralink不同的技术路径，在人脑上成功放置了4096个电极，打破了去年2048个电极的最高纪录。提到脑机接口，你第一时间想到的肯定是Elon Musk创建的公司Neuralink，他们在今年1月刚刚将首个芯片植入人脑。但Neuralink绝不是唯一发力脑机接口的公司。5月28日，Precision Neuroscience发布公告，他们成功在人脑上放置了4096个刺激神经元的电极...

来源：http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&mid=2652486503&idx=3&sn=e325809a2bd2b0d13d43a38a75c5e4c0&chksm=f09639001b2ee0ba96aa19cd83c93f91abe46b3dfbf482ac889aedc251c5bce18e2d8b5cf313&scene=0&xtrack=1#rd

LLM的「母语」是什么？

新智元报道编辑：alan【新智元导读】在以英语为主的语料库上训练的多语言LLM，是否使用英语作为内部语言？对此，来自EPFL的研究人员针对Llama 2家族进行了一系列实验。大语言模型的「母语」是什么？我们的第一反应很可能是：英语。但事实果真如此吗？尤其是对于能够听说读写多种语言的LLM来说。对此，来自EPFL（洛桑联邦理工学院）的研究人员发表了下面这篇工作来一探究竟：论文地址：https://arxiv.org/pdf/2402.10588项目地址：https://github.com/epfl-dlab/llm-latent-language...

来源：http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&mid=2652486503&idx=2&sn=a12c063218effadad1ccdac0b974848a&chksm=f0e55429191640af595d084bdeff0b29c694831c103573d8e6a4e1b9d088743e2dcdcc4f07dd&scene=0&xtrack=1#rd

next-token被淘汰！Meta实测「多token」训练方法，推理提速3倍，性能大涨10%+

新智元报道编辑：LRS【新智元导读】研究人员提出了一种新的大型语言模型训练方法，通过一次性预测多个未来tokens来提高样本效率和模型性能，在代码和自然语言生成任务上均表现出显著优势，且不会增加训练时间，推理速度还能提升至三倍。当前，大型语言模型，例如GPT和Llama，主要是根据「前文的单词序列」对「下一个token」进行预测的方式来训练。但你有没有想过一个问题，为什么不对后文的tokens同时进行预测呢？最近，Meta、巴黎高科路桥大学、巴黎萨克雷大学的研究人员就联合提出了一种新的训练方法，即一次性预测多个未来tokens，可以提高模型的样本...

来源：http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&mid=2652486503&idx=4&sn=de8001f7b447b7d674fa3126e5eabe23&chksm=f04ceb15d4d9250c1c9299538d5c3ebd60a35e5d290e7c698feed6ec3e3ed9eca2848042a4ee&scene=0&xtrack=1#rd

InfoQ

“GPT Store”里的 Killer App：我们已经用大模型 Agent 赚到钱了｜InfoQ《大模型领航者》

在大模型应用的元年，我们发现了这家公司，当别人还在探索时，他们就已经取得了显著的商业成就。本期《大模型领航者》，我们邀请了这家公司掌门人，他分享了自己的经历和商业逻辑，希望可以给大家一些启发。

来源：https://www.infoq.cn/article/MC4vmsZemRk0LXC7QqVj

智谱AI获中东财团 4 亿美元投资；老板跑路，900多员工一脸懵：上午改bug、下午解散；谷歌在云部门大规模裁员 | AI周报

查看本周最新产业动态>>

来源：https://www.infoq.cn/article/NPYL7aG4kYLIWqNc2dhe

Meta 首席科学家：不要从事 LLM 工作；代打卡成产业链，刘强东怒了：业绩不好不拼搏全部淘汰；上千页文档揭谷歌搜索黑幕 | Q资讯

一周热点！本周有哪些科技新闻发生？

来源：https://www.infoq.cn/article/ZrasmSqhfYByA0JXUj0d

这个离开大厂去 AI 创业的互联网大佬，带着他的“Killer Agent”来了

“我没有过往的包袱，也没有已经形成的固定模式”

来源：https://www.infoq.cn/article/YSpCsCCLvHvrsXB179Wm

生生不息，一齐见证 AI 新次元 | InfoQ 中国成立 17 周年

2024 年，我们将极客邦科技发展的年度主题定为「生生不息」。

来源：https://www.infoq.cn/article/wABFf3KQ2fyq0XTfRsgI

ShowMeAI社区

打造AI爆款应用<新>黄金法则；盘点20款最流行AI搜索工具；ChatGPT对在线知识社区的影响；100万用户教会我的5个教训 | ShowMeAI日报

盘点 20 款最流行的AI搜索应用，你最喜欢哪几个？ [图片] 国内秘塔AI搜索 https://metaso.cn/ 好用，免费，国内 Top 水平天工AI (昆仑万维) https://www.tiangong.cn/ 好用，免费，技术实力 Top 且快速升级中简单搜索 App (百度) https://secr.baidu.com/ 只有手机版，规规矩矩的一款AI增强搜索应用 360 AI 搜索 https://so.360.com 最近数据增长蛮快的，综合体验比较流畅澜舟AI搜索 https://ai-search.langboat.com 中规中矩 BrainStorm …

来源：https://zhuanlan.zhihu.com/p/698345703

又一款爆火AI游戏诞生！《换你来当爹》做对了什么？| ShowMeAI体验报告

[图片] 社区里几百人玩一款AI游戏的场面，值得记录一下！大模型游戏化极度看重〖有趣〗程度。可有趣的灵魂那么难得，以至于只要一眼，我们就在产品的海洋里发现了 ta 。1. 有趣的灵魂在发疯疯疯《换你来当爹》是一款全员发疯的AI游戏，主线任务是任意设定一个角色，然后把他培养成「大孝子」！灵感估计来源于男生大学宿舍里互相喊「爸爸」的传统？看到设定的一瞬间，会心一笑游戏最初在即刻平台出圈，随后传回微信社群，并成功激发起…

来源：https://zhuanlan.zhihu.com/p/697856247

朱啸虎：AI应用明年肯定大爆发；第3款爆火AI游戏出现了；AI应用定价策略「不能说的秘密」；人类数据不够用了怎么办 | ShowMeAI日报

日报&周刊合集 | 生产力工具与行业应用大全 | 点赞关注评论拜托啦！1. 换你来当爹：国内第3款爆火出圈的AI游戏应用，hhh 太搞笑了 [图片] 周末的时候，社群里伙伴们开始玩一款「换你来当爹」的AI游戏进入游戏界面后，输入名字，系统随机生成孩子的「出生设定」。然后恭喜你！可以开始当爹了！！好大儿的培养过程，伴随着各种糟心的意外，然后把难题摆在你面前。哎呀呀！逆子… 这时，你可以在系统给定的两个选项中选择一个，当然也…

来源：https://zhuanlan.zhihu.com/p/697655366

上海交通大学《动手学大模型》编程实战课；提示工程大赛冠军经验分享；AI Agent最新行业地图(3份)；人类与ChatGPT恋爱行为指南；提升AI产品留存率的7个技巧 | ShowMeAI日报

日报&周刊合集 | 生产力工具与行业应用大全 | 点赞关注评论拜托啦！ 1. 终于来了！OpenAI 周一官网直播，ChatGPT 和 GPT-4 上新啦！ [图片] Sam Altman 和 OpenAI 近期一直在造势，演讲、访谈、小更新等动作不断。终于！官方推特宣布，将于美西时间5月13日上午10点 (⏰ 北京时间5月14日凌晨1点) 在 OpenAI 官网进行直播，演示 ChatGPT 和 GPT-4 的更新。到底会更新什么呢？！！各方还在猜来猜去。@indigo 的猜测帖传播度很广，精选…

来源：https://zhuanlan.zhihu.com/p/697448133

ShowMeAI | 全球最有前途的100家AI公司，中国2家上榜；混合专家模型MoE详解；人大最新《大语言模型》电子书开放下载；斯坦福最新AI指数报告

日报&周刊合集 | 生产力工具与行业应用大全 | 点赞关注评论拜托啦！ 1. CB Insights 发布「AI 100 2024」榜单，评选出全球最有前途的 100 家人工智能公司 [图片] CB Insights 是全球知名的市场情报分析机构，以其深入的数据分析、前瞻性的行业洞察而著称。CB Insights 最近发布了「AI 100 2024 」榜单，综合考虑了公司交易活动、行业合作伙伴关系、团队实力、投资者实力、专利活动、专项评分等数据维度，并结合 CB Insights 调研和访谈，…

来源：https://zhuanlan.zhihu.com/p/696949266

Aminer.cn

训练数据匮乏：LLM在正式定理证明中的挑战

别担心，AMiner AI会帮助你高效检索和阅读文献！

来源：https://www.aminer.cn/research_report/665d2bd6c028d8419b08ba06

GPU内存瓶颈：大规模语言模型推理能力的制约因素

想把握最新的科技进展和研究成果，却发现自己的阅读速度根本赶不上文献产出的速度？

来源：https://www.aminer.cn/research_report/665555cec028d8419b0438c5

虚构事实的担忧：大型语言模型的新知识处理能力

AMiner AI，一款集发现论文、分析论文、理解论文、写作论文于一体的科研小助手。它会帮助你更加游刃有余地穿梭在学术海洋中，让科研变得更加有趣和高效！

来源：https://www.aminer.cn/research_report/664c3a53707801418e87e415

大型语言模型能否提高情感分析的准确性？

别担心，AMiner AI会帮助你高效检索和阅读文献！

来源：https://www.aminer.cn/research_report/66444165707801418e835757

清华团队提出“智能体医院”：医生智能体可实现自我进化｜大模型周报

清华团队提出“智能体医院”：医生智能体可实现自我进化

来源：https://www.aminer.cn/research_report/6642cb8c707801418e827a76

arXiv.org

Not Just Novelty: A Longitudinal Study on Utility and Customization of

an AI Workflow Generative AI brings novel and impressive abilities to help people in everyday tasks. There are many AI workflows that solve real and complex problems by chaining AI outputs together with human interaction. Although there is an undeniable lure of AI, it is uncertain how useful generative AI workflows are after the novelty wears off. Additionally, workflows built with generative AI have the potential to be easily customized to fit users' individual needs, but do users take advantage of this? We conducted a three-week longitudinal study with 12 users to understand the familiarization and customization of generative AI tools for science communication. Our study revealed that there exists a familiarization phase, during which users were exploring the novel capabilities of the workflow and discovering which aspects they found useful. After this phase, users understood the workflow and were able to anticipate the outputs. Surprisingly, after familiarization the perceived utility of the system was rated higher than before, indicating that the perceived utility of AI is not just a novelty effect. The increase in benefits mainly comes from end-users' ability to customize prompts, and thus potentially appropriate the system to their own needs. This points to a future where generative AI systems can allow us to design for appropriation.

来源：http://arxiv.org/abs/2402.09894v2

A Robot Walks into a Bar: Can Language Models Serve asCreativity Support

Tools for Comedy? An Evaluation of LLMs' Humour Alignment with Comedians We interviewed twenty professional comedians who perform live shows in front of audiences and who use artificial intelligence in their artistic process as part of 3-hour workshops on AI x Comedy'' conducted at the Edinburgh Festival Fringe in August 2023 and online. The workshop consisted of a comedy writing session with large language models (LLMs), a human-computer interaction questionnaire to assess the Creativity Support Index of AI as a writing tool, and a focus group interrogating the comedians' motivations for and processes of using AI, as well as their ethical concerns about bias, censorship and copyright. Participants noted that existing moderation strategies used in safety filtering and instruction-tuned LLMs reinforced hegemonic viewpoints by erasing minority groups and their perspectives, and qualified this as a form of censorship. At the same time, most participants felt the LLMs did not succeed as a creativity support tool, by producing bland and biased comedy tropes, akin tocruise ship comedy material from the 1950s, but a bit less racist''. Our work extends scholarship about the subtle difference between, one the one hand, harmful speech, and on the other hand, offensive'' language as a practice of resistance, satire andpunching up''. We also interrogate the global value alignment behind such language models, and discuss the importance of community-based value alignment and data ownership to build AI tools that better suit artists' needs.

来源：http://arxiv.org/abs/2405.20956v1

Enhancing Vision Models for Text-Heavy Content Understanding and

Interaction Interacting and understanding with text heavy visual content with multiple images is a major challenge for traditional vision models. This paper is on enhancing vision models' capability to comprehend or understand and learn from images containing a huge amount of textual information from the likes of textbooks and research papers which contain multiple images like graphs, etc and tables in them with different types of axes and scales. The approach involves dataset preprocessing, fine tuning which is by using instructional oriented data and evaluation. We also built a visual chat application integrating CLIP for image encoding and a model from the Massive Text Embedding Benchmark which is developed to consider both textual and visual inputs. An accuracy of 96.71% was obtained. The aim of the project is to increase and also enhance the advance vision models' capabilities in understanding complex visual textual data interconnected data, contributing to multimodal AI.

来源：http://arxiv.org/abs/2405.20906v1

Position: Stop Making Unscientific AGI Performance Claims

Developments in the field of Artificial Intelligence (AI), and particularly large language models (LLMs), have created a 'perfect storm' for observing 'sparks' of Artificial General Intelligence (AGI) that are spurious. Like simpler models, LLMs distill meaningful representations in their latent embeddings that have been shown to correlate with external variables. Nonetheless, the correlation of such representations has often been linked to human-like intelligence in the latter but not the former. We probe models of varying complexity including random projections, matrix decompositions, deep autoencoders and transformers: all of them successfully distill information that can be used to predict latent or external variables and yet none of them have previously been linked to AGI. We argue and empirically demonstrate that the finding of meaningful patterns in latent spaces of models cannot be seen as evidence in favor of AGI. Additionally, we review literature from the social sciences that shows that humans are prone to seek such patterns and anthropomorphize. We conclude that both the methodological setup and common public image of AI are ideal for the misinterpretation that correlations between model representations and some variables of interest are 'caused' by the model's understanding of underlying 'ground truth' relationships. We, therefore, call for the academic community to exercise extra caution, and to be keenly aware of principles of academic integrity, in interpreting and communicating about AI research outcomes.

来源：http://arxiv.org/abs/2402.03962v3

Multi-hop Question Answering

The task of Question Answering (QA) has attracted significant research interest for long. Its relevance to language understanding and knowledge retrieval tasks, along with the simple setting makes the task of QA crucial for strong AI systems. Recent success on simple QA tasks has shifted the focus to more complex settings. Among these, Multi-Hop QA (MHQA) is one of the most researched tasks over the recent years. In broad terms, MHQA is the task of answering natural language questions that involve extracting and combining multiple pieces of information and doing multiple steps of reasoning. An example of a multi-hop question would be "The Argentine PGA Championship record holder has won how many tournaments worldwide?". Answering the question would need two pieces of information: "Who is the record holder for Argentine PGA Championship tournaments?" and "How many tournaments did [Answer of Sub Q1] win?". The ability to answer multi-hop questions and perform multi step reasoning can significantly improve the utility of NLP systems. Consequently, the field has seen a surge with high quality datasets, models and evaluation strategies. The notion of 'multiple hops' is somewhat abstract which results in a large variety of tasks that require multi-hop reasoning. This leads to different datasets and models that differ significantly from each other and makes the field challenging to generalize and survey. We aim to provide a general and formal definition of the MHQA task, and organize and summarize existing MHQA frameworks. We also outline some best practices for building MHQA datasets. This book provides a systematic and thorough introduction as well as the structuring of the existing attempts to this highly interesting, yet quite challenging task.

来源：http://arxiv.org/abs/2204.09140v2

齐思

齐思头条2024/06/03「Huggingface发布FineWeb数据集，LangChain推出多代理系统，Elon Musk宣布H100和B200部署计划，GPT计算机助手开源，LangChainAI解析PDF到知识图谱挑战。」

Twitter:

Huggingface's FineWeb and FineWeb-Edu 数据集 : Huggingface 发布了 FineWeb 数据集，这是一个精心挑选的预训练数据集，旨在优化模型性能。FineWeb-Edu 是其子集，包含高质量的教育内容。这些数据集在 MMLU、ARC 和 OpenBookQA 等基准测试中显著优于其他开放预训练数据集。详细信息请参见技术报告。

FineWeb-Edu 数据集发布 : FineWeb-Edu 数据集过滤了原始的 15 万亿 FineWeb 令牌，保留了 1.3 万亿最高教育质量的内容。该数据集在 MMLU、ARC 和 OpenBookQA 等教育基准测试中表现出色。详细信息请参见技术报告。

LangChain 多代理系统生成会议报告 : LangChain 推出了一种多代理系统，用于生成会议报告，涉及输入代理、写作代理和审查代理，迭代地起草和评估报告。该系统展示了人机协作的有效性。详细信息请参见推文。

GPT 计算机助手开源项目 : Harrison Chase 介绍了一个开源项目，旨在复制 ChatGPT 桌面应用程序，该应用程序可以通过 pip 轻松安装，并支持文本和截图输入以进行语音响应。详细信息请参见推文。

Elon Musk 关于 H100 和 B200 部署的声明 : Elon Musk 宣布，由于技术进步的快速发展，投资 1GW 的电力到 H100s 上并不值得。相反，@xAI 的 100k H100 液冷训练集群将在几个月内上线，下一步是明年夏天部署约 300k B200s 和 CX8 网络。详细信息请参见推文。

LangChainAI 关于 PDF 到知识图谱转换的挑战 : LangChainAI 强调了将 PDF 文件转换为知识图谱的挑战，特别是解析 PDF 和构建准确知识图谱的难度。他们推荐了 @neo4j 的视频来帮助用户入门。详细信息请参见帖子。

LangChainAI 关于具有记忆的 AI 代理 : LangChainAI 分享了一个教程，介绍如何使用 MongoDB、Fireworks AI 和 LangChain 构建具有记忆功能的 AI 代理。该指南旨在帮助用户构建一个配备记忆系统和知识管理的 AI 研究助手代理。详细信息请参见帖子。

LlamaIndex 自定义图 RAG 过程 : LlamaIndex 介绍了一种通过结合向量/关键词搜索与图遍历和文本到 Cypher 技术来构建自定义图 RAG 过程的方法。这种方法允许创建自定义图检索器。详细信息请参见教程。

Firefox 集成 Transformers.js : Firefox 利用 Transformers.js 增强其 PDF 编辑器，通过生成图像的替代文本和改进翻译功能，所有这些功能都完全离线且开源，模型参数少于 200M。详细信息请参见博客文章。

指令微调和 LoRA 在 LLMs 中的应用 : Sebastian Raschka 的月度研究报告涵盖了三篇关于大语言模型（LLMs）中指令微调和参数高效微调（LoRA）的新论文。这对于日常使用这些方法的研究人员特别相关。详细信息请参见推文。

Llama-3-400B+ 模型即将发布 : 即将发布的 Llama-3-400B+ 模型预计将为社区提供 GPT-4 级别模型的开放权重访问，显著影响研究和草根创业公司。该模型仍在训练中，预计将释放巨大的研究潜力。详细信息请参见 DrJimFan。

Sakana AI 赞助 NeurIPS 2024 的 LLM 合并竞赛 : Sakana AI 赞助了 NeurIPS 2024 的 LLM 合并竞赛，重点是通过合并技术高效地构建大语言模型。详细信息请参见公告。

GPT-2 使用 FineWeb 数据集进行训练 : 使用 Huggingface 的 FineWeb 数据集进行的新一轮 GPT-2 训练在 HellaSwag 上达到了 35.5% 的准确率，仅使用了 150B 令牌，超过了 GPT-3 论文中使用 300B 令牌达到的 33.7% 准确率。这一改进归功于更好的数据质量和清理方法。详细信息请参见推文。

推荐的人工智能阅读清单 : 自 2019 年以来未变的人工智能推荐阅读清单由 @beenwrekt 和 @ylecun 分享。该清单提供给研究生，但对任何对 AI 感兴趣的人都可访问。详细信息请参见推文。

AI 初创公司筹集超过 6.3 亿美元 : AI 初创公司本周筹集了超过 6.3 亿美元，八家新初创公司获得了风险投资支持，正在开发创新产品。详细信息请参见推文。

Exactly AI 允许艺术家训练个人 AI 模型 : Exactly AI 筹集了 430 万美元的种子资金，允许艺术家在其作品上训练自己的 AI 模型，使他们能够授权其 AI 模型进行货币化。详细信息请参见推文。

本周顶级机器学习论文 : 5 月 27 日至 6 月 2 日的顶级机器学习论文列表包括 SimPO、GNN-RAG、Attention as an RNN、Abacus Embeddings、Symbolic Chain-of-Thought 和 Contextual Position Encoding。详细信息请参见推文。

Hugging Face 过去的 Knockknock 库 : Hugging Face 的 knockknock 库在训练运行结束时通知用户，支持多种通知方法，包括电子邮件、Discord、Slack 和 SMS。详细信息请参见推文。

Insight Partners 发布 AI 初创公司市场地图 : Insight Partners 发布了涵盖最新 AI 初创公司的市场地图，重点关注 AI 代理。详细信息请参见推文。

CheXzero 在诊断胸部 X 光病理方面优于放射科医生 : CheXzero AI 模型在诊断 79 种胸部 X 光病理方面显著优于 227 名放射科医生，特别是在罕见病方面。该研究涉及哈佛、MIT 和斯坦福的研究人员，对改善被忽视疾病的诊断具有重要意义。详细信息请参见研究。

多模态 AI 架构调查 : 一篇综合论文调查了多模态 AI 架构，将其分为四大类（A 型、B 型、C 型、D 型），以便于模型选择和开发。该论文详细分析了每种架构的优缺点，考虑了训练数据、计算要求和可扩展性，有助于构建任意模态模型。详细信息请参见推文。

2-Rectified Flow 在扩散模型中的应用 : 一篇新论文强调了 2-rectified flow 作为扩散蒸馏技术中的一种有前途的方法，在较少步骤中生成高质量样本，同时保留未蒸馏扩散模型的灵活性。该方法可能显著影响扩散模型的效率和效果。详细信息请参见推文。

Wllama 项目在浏览器中运行更大模型 : Wllama 项目使得可以使用 WebAssembly SIMD 在浏览器中直接运行更大模型，无需后端或 GPU。该项目支持将模型拆分为更小的文件以进行并行加载，并根据浏览器支持自动切换单线程和多线程构建。详细信息请参见推文。

长上下文的上下文学习（ICL） : 一篇题为《长上下文模型的上下文学习：深入探索》的论文揭示，长上下文 ICL 性能随着数百或数千个示例的增加而提高，对示例顺序的敏感性降低，示例检索的增益减少。研究比较了各种提示方法，发现长上下文 ICL 可以接近或超过微调性能。详细信息请参见推文。

AI 自动化与低/无代码工具 : Logan Kilpatrick 讨论了 AI 在自动化日常任务中的未充分利用，并探讨了像 Zapier 这样的低/无代码工具如何弥合这一差距。详细信息请参见对话。

提升数据科学和编程技能的 LLMs : Bindu Reddy 强调了大语言模型（LLMs）如何显著提升初级和中级软件工程师和数据科学家的技能，使他们能够在职业生涯中快速进步。详细信息请参见推文。

HackerNews:

糖霜还是蛋糕？ — dthompson 链接: 这篇文章讨论了2024年春季Lisp游戏创作大赛，强调了创纪录的48个游戏提交，并探讨了参与者在使用Lisp构建游戏时采用的两种不同的元模式。

讨论亮点：

s7 Scheme ：因其简约、易于嵌入和宽松的BSD许可证而受到赞扬。它在Guile、Clojure和Common Lisp (CL) 之间占据了一个位置，并因其在WASM 中的易用性而受到关注。
Janet语言 ：尽管它适合游戏开发，并且包含许多“内置电池”功能，如网络服务器和图形，但在比赛中没有游戏使用Janet 。一些参与者发现它难以与他们的目标集成，例如使用WebGL的网络应用。
ClojureScript ：因使网络开发变得愉快而受到赞赏，并希望能获得更多关注。一位参与者分享了一个使用Clojure创建的3D Boss战原型 。
Lisp和现代CPU ：讨论了Lisp对现代CPU的适用性，有人认为Lisp的基于列表的操作 由于现代内存层次结构而效率较低，而其他人则反驳说现代Lisp支持各种数据结构 ，并且可以进行性能优化。
Emacs Lisp游戏 ：提到了Dunnet ，一个捆绑在GNU Emacs中的文字冒险游戏，以及其他默认安装中包含的游戏，如贪吃蛇和俄罗斯方块 。

步伐 - Futility Closet 链接: 这篇文章讲述了阿尔伯特·爱因斯坦如何珍视他与库尔特·哥德尔的每日散步，这些散步占据了他工作日的很大一部分，因为他们在各种知识话题上进行了深入讨论。讨论亮点：

指导和学习：
- 一位评论者分享了在每日散步中从导师那里学到很多的个人经历，强调了非正式、即兴互动 对职业成长的价值。
- 远程工作挑战： 远程工作需要高度有意的互动，这可能缺乏面对面讨论的自然流动和即兴性。视频会议剥夺了重要的非语言线索，使得协作效果降低。
- 办公室文化的多样性： 面对面与远程工作的有效性在很大程度上取决于办公室文化。有些人发现面对面互动更高效，而另一些人则认为远程工作由于干扰较少而更有效。
爱因斯坦的工作日：
- 爱因斯坦与哥德尔的散步占据了他30%的工作日 ，突显了他对这些知识交流的重视。
- 文章指出，爱因斯坦和哥德尔的讨论涵盖了政治、哲学和物理 ，表明了非正式指导可以受益的广泛话题。
生产力见解：
- 文章和评论表明，高质量的指导 和即兴互动可以显著提高生产力和学习效果，而这在远程工作环境中往往难以实现。
- 随机同事互动： 同事之间的随意、未计划的互动可以带来有价值的思想交流，这在远程工作环境中难以复制。
历史背景：
- 文章提供了一个关于司机因认出爱因斯坦而导致车祸的历史轶事，说明了公众对他的迷恋以及他的日常生活对周围人的影响。

Discord:

SD3模型发布时间表 ：SD3 模型在四月进入测试阶段，预计下个月发布权重，类似于SDXL 的时间表。关于在线SD3 模型的合法性存在疑虑，可能是基于SD3 图像训练的模型。详细信息。

量化感知训练的三元扩散模型 ：论文TerDiT: Ternary Diffusion Models with Transformers提出了量化感知训练（QAT）和高效部署，模型规模从600M到4.2B参数，代码在GitHub上提供。

Ollama与LM Studio的函数调用支持 ：Ollama 支持使用开源模型如llama-3 和phi-3 进行函数调用，通过OllamaFunctions库实现，而LM Studio 目前不支持此功能。详细信息。

AdamW内核优化问题 ：AdamW内核 存在奇怪的网格大小和未合并的读取问题，可能是由于编译器未识别f128和x128数据类型之间的交互。详细信息。

Mojo开源发布 ：Modular开源了Mojo标准库 的核心模块，采用Apache 2许可证 ，并提供公共CI和夜间构建，允许通过GitHub提交外部贡献。详细信息。

Paddler负载均衡器 ：Paddler 是一个开源负载均衡器和反向代理，优化用于llama.cpp 服务器，支持动态服务器添加/移除以实现自动扩展。详细信息。

Grokfast算法加速Grokking现象 ：论文Grokfast介绍了一种通过放大梯度的慢变成分来加速Grokking现象的方法，减少训练迭代次数最多达50倍，适用于图像、语言和图形任务。

自我纠正的编码助手 ：使用Langra 和Codell 模型创建的自我纠正编码助手，迭代生成和检查代码错误，逐步改进解决方案。详细信息。

稳定扩散中的提示注入 ：在扩散模型中实现提示注入 ，允许在不同的UNet块中注入特定提示，显著影响模型输出，基于ComfyUI 实现。详细信息。

Llama-3数据评分 ：使用Llama-3 和特定提示对数据进行1-5分的评分，详细信息见技术报告。

多语言评估方法 ：使用GPT-4评估集 对模型的多语言支持进行评分，每种语言的评分为10分制，详细评估由可信评估者进行。详细信息。

LangChain与OpenAI代理的比较 ：LangChain 提供了一个全面的框架，用于协调LLM调用、数据和特定用例，包括VectorStores 等功能，而OpenAI代理 可能不具备如此广泛的功能。详细信息。

Cohere API速率限制 ：试用密钥每月限制为1,000次调用 ，升级到生产密钥后每分钟可调用10,000次 。更多详情见Cohere文档。

分布式推理的Llama RPC ：Llama RPC 支持在多个系统上分布推理，支持部分模型加载和量化（需代码修改）。详细信息。

RWKV中的状态调优 ：状态调优 涉及计算初始状态（s0）的梯度，并使用Adam优化调整s0，作为所有输入数据的最终提示，比传统的上下文学习更强大。详细信息。

YOLO v10发布 ：YOLO v10 发布，详细信息见公告链接。

多语言支持的Ghost Beta训练进展 ：Ghost Beta（小版本） 的训练已完成41%，支持多种语言，包括英语、西班牙语、葡萄牙语、法语、意大利语、德语、越南语、韩语和中文。详细信息。

Llama-3-8b-instruct的可重复性问题 ：在gsm8k 上运行llama-3-8b-instruct 时结果差异显著（62.4 vs. 79.6），可能是因为Huggingface排行榜使用的提交版本与当前main版本有显著差异。详细信息。

稳定扩散3中的文本处理 ：建议扩散模型在发送到交叉注意力之前处理文本，以避免概念泄漏。稳定扩散3 在变压器中处理文本和图像标记，而Vermeer 使用MLP。详细信息。

自定义JSON解析器在Mojo中的实现 ：计划在Mojo中编写自定义JSON解析器，用于基准测试，参考之前在FlexBuffers C#和FlexBuffers Swift上的工作。

生成CSV文件的正则表达式 ：建议使用正则表达式 或markdown包 提取markdown格式的表格并输出为CSV文件。详细信息。

多语言支持的MiniCPM-Llama3-V 2.5 ：MiniCPM-Llama3-V 2.5 模型在移动设备上表现出GPT-4V级别的性能 ，具有强大的OCR能力和超过30种语言的多语言支持。详细信息。

HuggingFace & Github:

大型语言模型与技术创新

K2 是一个完全透明的65亿参数LLM模型 ，由MBZUAI、Petuum和LLM360 合作开发。K2使用了1.4T的标记和英语语言 ，在35%更少的计算资源 下超越了Llama 2 70B模型的性能。LLM360 提供了性能和评估集合，以及预训练和微调的教程。所有组件均在Apache 2.0许可 下完全开源。

API与集成工具

GitHub-lanqian528/chat2api 提供了一项将网页上的ChatGPT转换为OpenAI API格式 的服务。该服务支持免登录的GPT-3.5对话 ，以及GPT-4 和GPTs ，并支持上传图片和文件。多机分布部署 和Tokens管理功能 ，以及通过API或网页 使用该服务。
GitHub-openai php/客户端是一个社区维护的PHP API客户端，支持与OpenAI API 进行交互。该客户端支持多种资源，包括模型、聊天、音频、嵌入、文件、微调 等，并提供配置和自定义选项。它还支持Azure OpenAI服务 ，并包含丰富的测试功能。

游戏流媒体与硬件支持

GitHub-LizardByte/Sunshine 是一个自托管的游戏流媒体主机 ，用于Moonlight 。Sunshine 提供低延迟、云游戏服务器功能，支持AMD、Intel和Nvidia GPU 进行硬件编码。用户可以从任何Moonlight客户端连接到Sunshine，并通过Web界面进行配置和客户端配对。

来源：https://news.miracleplus.com/share_link/28807

Logan Kilpatrick(@OfficialLoganK)

在最近与Ben Tossell的对话中，Logan Kilpatrick (@OfficialLoganK) 强调了利用人工智能自动化琐碎任务的潜力。他们讨论了使用像Zapier这样的低/无代码工具来弥合人工智能自动化的差距。这段内容对那些有兴趣利用人工智能提高生产力但又不需要过多技术技能的人特别值得关注。这是一个号召，让个人和企业探索人工智能工具，简化他们的工作流程，专注于更有意义的工作。如果您想了解人工智能如何简化您的工作生活，并对可访问的自动化解决方案感到好奇，这次讨论可能会提供有价值的见解。

来源：https://x.com/OfficialLoganK/status/1797318660446400782

LLM 快速发展时代下图基础模型初探

这篇指南探讨了新兴领域的图基础模型（GFM），旨在将大型语言模型（LLMs）的能力与图模型的结构洞察相结合。内容深入探讨了GFM处理复杂系统的潜力，通过图数据训练突出了与传统基于语言的模型的独特挑战和技术差异。强调了改善数据质量、架构和训练策略对于推动GFM发展的重要性。此外，该指南还涉及了在多模态建模中的潜在应用以及对图神经网络稳健性的研究需求。对于那些对机器学习和结构化数据交叉点感兴趣的人来说，这篇内容提供了对图机器学习未来及其在各个领域中的应用的一瞥。

来源：https://mp.weixin.qq.com/s/B62GXESrTQTz7g59WOPjSQ

Ashpreet Bedi（@ashpreetbedi）

Ashpreet Bedi通过在AWS上分享运行由Andrej Karpathy构想的LLM OS的方法，引起了科技社区的兴趣。这种方法利用GPT-4o作为协调各种资源的层，提出了一种新的方式来提供和管理大型语言模型（LLMs）。与Streamlit和FastAPI等流行框架的集成，再加上针对Docker或ECS的容器化，表明了部署LLMs的流程更加简化。提供的文档链接提供了更深入的设置，对于希望在可扩展的云环境中利用LLMs的开发人员来说，这可能是一个宝贵的资源。这篇内容因其在广泛使用的云平台上实际应用尖端AI协调而脱颖而出，可能预示着对各种应用更具可访问性和效率的LLM部署方式的转变。

来源：https://x.com/ashpreetbedi/status/1797320918274068700

不同数据集有不同的Scaling law？而你可用一个压缩算法来预测它

在这篇引人入胜的文章中，作者深入探讨了神经网络训练的微妙世界，特别是研究了模型参数、数据集大小和训练结果之间的Scaling law。这篇文章的独特之处在于挑战了从散乱网络文本数据训练的语言模型中得出的Scaling law的普适性。作者的实验利用概率上下文无关文法生成了不同复杂性的文本数据集，揭示了数据集的可压缩性与其句法复杂性之间的有趣反比关系。这一发现引出了一个引人入胜的结论，即神经模型的可扩展性受到训练数据复杂性的显著影响。此外，使用像gzip这样简单的压缩算法来预测数据集Scaling law参数的做法突显了这项研究的实际意义。对于那些对神经网络训练的效率和有效性感兴趣的人来说，这篇文章为他们提供了有关数据复杂性如何塑造指导模型发展的Scaling law的宝贵见解。

来源：https://mp.weixin.qq.com/s/sNQIe_jE30lciwP0uRhLEg

小互

100 个 Midjourney 随机风格参考 Sref Codes库以及Sref Codes教程

来源：https://xiaohu.ai/p/9008

教程：如何把自己变成吉卜力电影角色替换动画片中人物角色

来源：https://xiaohu.ai/p/8989

Video-MME: 首个多模态大模型视频分析综合评估基准

来源：https://xiaohu.ai/p/8976

NVIDIA 发布全套数字人服务可根据音频自动生成数字人的身体、面部和姿势

来源：https://xiaohu.ai/p/8963

英伟达黄仁勋 Computex 2024 演讲全文及精华介绍

来源：https://xiaohu.ai/p/8941

宝玉

为什么对于有的人来说 ChatGPT 并没有什么卵用？

看到微博上一位医生这条被 ChatGPT-4o 坑的微博，尝试从技术角度解读一下，这样也许能更好的理解现阶段大语言模型的优缺点，在实际应用中能扬长避短。

来源：https://baoyu.io/blog/ai/why-do-someone-think-chatgpt-doesnot-really-work-for-them

使用大语言模型 (LLMs) 构建产品一年后的经验总结 (第一部分) [译]

现在是使用大语言模型 (LLMs) 构建产品的激动人心的时刻。在过去的一年中，LLMs 的表现已经“足够好”可以应用于现实世界。LLMs 改进的速度，加上社交媒体上的大量演示，将推动预计到 2025 年 AI 投资达到 2000 亿美元。LLMs 的广泛可用性，让每个人，而不仅仅是机器学习工程师和科学家，都能在他们的产品中构建智能。虽然构建 AI 产品的门槛已经降低，但要创建那些不仅仅是演示效果好的产品，仍然充满挑战。

来源：https://baoyu.io/translations/llm/what-we-learned-from-a-year-of-building-with-llms-part-1

谷歌搜索秘籍泄漏：揭秘内部工程文档 [译]

探索你一直渴望了解的谷歌算法的秘密。

来源：https://baoyu.io/translations/seo/secrets-from-the-algorithm-google-searchs-internal-engineering-documentation-has-leaked

数千份谷歌搜索 API 的泄露文件曝光，SEO 从业者必看 [译]

2024 年 5 月 5 日，我收到一封电子邮件，发件人称得到谷歌搜索部门大量泄漏的 API 文档集的访问权限。邮件还提到，这些泄露文件已经得到前谷歌员工的验证，证实其真实性，并且这些前员工及其他人还透露了更多关于谷歌搜索操作的秘密信息。

来源：https://baoyu.io/translations/seo/an-anonymous-source-shared-thousands-of-leaked-google-search-api-documents-with-me-everyone-in-seo-should-see-them

映射大语言模型的思维 [译]

今天，我们在理解 AI 模型内部机制方面取得了重大突破。我们已经识别出数百万个概念在 Claude Sonnet（一种我们部署的大语言模型）中的表示方式。这是首次对现代生产级大语言模型的内部进行详细研究。这一发现有助于未来提升 AI 模型的安全性。

来源：https://baoyu.io/translations/anthropic/mapping-mind-language-model

Github

Codium-ai/cover-agent

CodiumAI Cover-Agent: An AI-Powered Tool for Automated Test Generation and Code Coverage Enhancement! 💻🤖🧪🐞

来源：https://github.com/Codium-ai/cover-agent

kyegomez/AlphaFold3

Implementation of Alpha Fold 3 from the paper: "Accurate structure prediction of biomolecular interactions with AlphaFold3" in PyTorch

来源：https://github.com/kyegomez/AlphaFold3

6677-ai/tap4-ai-webui

One-click to deploy your own ai tools directory with the open source web-ui

来源：https://github.com/6677-ai/tap4-ai-webui

Bklieger/groqbook

Groqbook: Generate entire books in seconds using Groq and Llama3

来源：https://github.com/Bklieger/groqbook

fofr/cog-consistent-character

Create images of a given character in different poses

来源：https://github.com/fofr/cog-consistent-character

本文档由扣子生成，资讯版权属于原作者。豆包机器人链接：https://www.coze.cn/store/bot/7343089859382444051?bot_id=true 一支烟花社区提供技术支持，了解更多点击：https://t.zsxq.com/r8NOO 联系开发者微信反馈问题：play-with-ai