大模型的忠诚度，字节开发seed-tts，提示词攻击介绍-CSDN博客

本文链接：https://blog.csdn.net/ccc7574/article/details/139685564

一支烟花官网：

智源社区

《管理世界》黄甄魏娜梁正丨从三十余年纵向变迁看跨部门数据共享效果的动态演变机制

点击阅读原文

来源：http://mp.weixin.qq.com/s?__biz=MzU4MzYxOTIwOQ==&mid=2247510245&idx=1&sn=7942001e12be958e8b21a0d2c9de7723&chksm=fcb269884b5079d2b23af80bfca98397c2e612749840b8e0f063596971f572914e5bce2e21bb&scene=0&xtrack=1#rd

AI+X高校行厦门大学专场顺利举行

2024年5月21日晚，WISERCLUB与Datawhale在厦门大学经济楼N302联合举办AI+X（厦门大学专场）活动，吸引了校内各学院的同学参加。本次活动由WISERCLUB与Datawhale共同主办，趋动云、人民邮电出版社、Openl启智、智海Mo协办。活动以AI+X为主题，设置了活动致辞、AI大模型介绍与动手实操、嘉宾分享、互动抽奖等多个干货满满又充满趣味的环节；活动全程由WISERCLUB主席蔡欣奇主持。让我们一起回顾一下现场的精彩过程吧！活动现场 1活动致辞活动开场由计量经济学教育部重点实验室（厦门大学）副主任钟锃光老师为本次活动致辞，钟老师对Datawhale成员...

来源：http://mp.weixin.qq.com/s?__biz=MzIyNjM2MzQyNg==&mid=2247665933&idx=2&sn=4375141a52e70cfcb9e031e8dda8ed27&chksm=e91f491aff0c39b359962999193c1643251c85eaab8140261db832579781edb5fa5024873610&scene=0&xtrack=1#rd

AI+X 高校行福州大学专场人气满满 🥳

为帮助同学们深入了解 AI 的魅力与潜力，激发同学们的创新思维和实践能力，吸引更多学子了解并加入开源社区，5月18日下午，福州大学计算机协会联合福州大学电子爱好者学社，与Datawhale社区（Github star数全球前100）于牛牛汇创新实践共享活动空间举办了 “AI+X 高校行”活动。活动吸引了100余名同学参加。活动伊始，计算机学院2022级人工智能专业陈上铭作为主讲人向同学们详细介绍了神奇的Stable Diffusion大模型，并引导同学们迈出尝试部署自己的大模型的第一步。期间，各助教们在各自的教导范围内积极行动，确保同学们都能紧紧跟上主讲人的节奏，一同感受Stable Diff...

来源：http://mp.weixin.qq.com/s?__biz=MzIyNjM2MzQyNg==&mid=2247665933&idx=5&sn=d48af3bcd03395667ecb715cacd7ec78&chksm=e9a5560da275d770d99668cef6337293c59a75d1288f43536a083f8a174675d263a1d58e5616&scene=0&xtrack=1#rd

AI+X 高校行北京邮电大学专场强强联合！

MashOn 码上智享未来驭光而上计算机学院（国家示范性软件学院）第26届科技节码上出发×Datawhale“AI+X”高校行圆满举办！为进一步增强我校学生将理论与实践结合的能力，加速我校在人工智能及相关学科的建设和发展，5月19日，计算机学院（国家示范性软件学院）在西土城校区圆满举办“智享未来，驭光而上”第26届科技节之Datawhale“AI+X高校行”活动。本场活动由Datawhale与北京邮电大学计算机学院（国家示范性软件学院）联合主办，计算机学院（国家示范性软件学院）码上出发创新社承办，趋动云、人民邮电出版社、OpenI启智、智海Mo等单位协办，吸引了我校众多相关专业的学...

来源：http://mp.weixin.qq.com/s?__biz=MzIyNjM2MzQyNg==&mid=2247665933&idx=4&sn=e3159d4a52046da2f35996cdbf13aa77&chksm=e9194b0f04e21b42cb2b047d3f7a589aad2930efa542fffe0762a6843868be54df78d3620f40&scene=0&xtrack=1#rd

研究院副院长肖茜受邀出席WSIS+20高级别活动和“人工智能向善”全球峰会

点击阅读原文

来源：http://mp.weixin.qq.com/s?__biz=MzU4MzYxOTIwOQ==&mid=2247510245&idx=2&sn=84dec60d6880b9d27209d3c9fc7b60a0&chksm=fc59c8db5e1cc067d0edd0a97639eb8b547a89c62b2602a296a3cf00fb1810edb89909aaaf5d&scene=0&xtrack=1#rd

InfoQ

跟大厂拼价格到底！智谱AI 宣布模型全面降价，刘慈欣、AI 老罗线上“整活儿” 还可以根据使用规模快速为调整价格和并发

来源：https://www.infoq.cn/article/P8xizTcfBg7354pp1Opc

关于Vearch在大模型中使用的一些实践

本文主要介绍了京东自研向量库Vearch的基本使用，借助我们在大模型RAG应用中的实践，介绍了它的两个核心能力：存储及检索，同时对实践中遇到的一些问题，也给出了解决方案。另外本文也对大模型中的部分常识也做了基本介绍，希望对大家有所帮助。

来源：https://www.infoq.cn/article/695b4d28832c9e551efa7cc6c

什么是LLM大模型训练，详解Transformer结构模型

本文介绍了大模型训练、推理的基本逻辑，并以Transformer为例，分析了其特点和优势。

来源：https://www.infoq.cn/article/c965120d46e5bc4d5d790d1a7

AI辅助内部研发效率提升，昇腾大模型推理的最佳实践

本文整理自华为昇腾计算首席架构师王建辉在 AICon 2024 北京的演讲。

来源：https://www.infoq.cn/article/C9vjic1Oj9JhyHY3m645

大模型加持下的 AIOps 业务场景实践有哪些新“解法”？

期待大模型能优化 AIOps 在数据理解、关联和交互体验上的表现。

来源：https://www.infoq.cn/article/AsEk7t1aSPEKHSQatxGa

ShowMeAI社区

打造AI爆款应用<新>黄金法则；盘点20款最流行AI搜索工具；ChatGPT对在线知识社区的影响；100万用户教会我的5个教训 | ShowMeAI日报

盘点 20 款最流行的AI搜索应用，你最喜欢哪几个？ [图片] 国内秘塔AI搜索 https://metaso.cn/ 好用，免费，国内 Top 水平天工AI (昆仑万维) https://www.tiangong.cn/ 好用，免费，技术实力 Top 且快速升级中简单搜索 App (百度) https://secr.baidu.com/ 只有手机版，规规矩矩的一款AI增强搜索应用 360 AI 搜索 https://so.360.com 最近数据增长蛮快的，综合体验比较流畅澜舟AI搜索 https://ai-search.langboat.com 中规中矩 BrainStorm …

来源：https://zhuanlan.zhihu.com/p/698345703

又一款爆火AI游戏诞生！《换你来当爹》做对了什么？| ShowMeAI体验报告

[图片] 社区里几百人玩一款AI游戏的场面，值得记录一下！大模型游戏化极度看重〖有趣〗程度。可有趣的灵魂那么难得，以至于只要一眼，我们就在产品的海洋里发现了 ta 。1. 有趣的灵魂在发疯疯疯《换你来当爹》是一款全员发疯的AI游戏，主线任务是任意设定一个角色，然后把他培养成「大孝子」！灵感估计来源于男生大学宿舍里互相喊「爸爸」的传统？看到设定的一瞬间，会心一笑游戏最初在即刻平台出圈，随后传回微信社群，并成功激发起…

来源：https://zhuanlan.zhihu.com/p/697856247

朱啸虎：AI应用明年肯定大爆发；第3款爆火AI游戏出现了；AI应用定价策略「不能说的秘密」；人类数据不够用了怎么办 | ShowMeAI日报

日报&周刊合集 | 生产力工具与行业应用大全 | 点赞关注评论拜托啦！1. 换你来当爹：国内第3款爆火出圈的AI游戏应用，hhh 太搞笑了 [图片] 周末的时候，社群里伙伴们开始玩一款「换你来当爹」的AI游戏进入游戏界面后，输入名字，系统随机生成孩子的「出生设定」。然后恭喜你！可以开始当爹了！！好大儿的培养过程，伴随着各种糟心的意外，然后把难题摆在你面前。哎呀呀！逆子… 这时，你可以在系统给定的两个选项中选择一个，当然也…

来源：https://zhuanlan.zhihu.com/p/697655366

上海交通大学《动手学大模型》编程实战课；提示工程大赛冠军经验分享；AI Agent最新行业地图(3份)；人类与ChatGPT恋爱行为指南；提升AI产品留存率的7个技巧 | ShowMeAI日报

日报&周刊合集 | 生产力工具与行业应用大全 | 点赞关注评论拜托啦！ 1. 终于来了！OpenAI 周一官网直播，ChatGPT 和 GPT-4 上新啦！ [图片] Sam Altman 和 OpenAI 近期一直在造势，演讲、访谈、小更新等动作不断。终于！官方推特宣布，将于美西时间5月13日上午10点 (⏰ 北京时间5月14日凌晨1点) 在 OpenAI 官网进行直播，演示 ChatGPT 和 GPT-4 的更新。到底会更新什么呢？！！各方还在猜来猜去。@indigo 的猜测帖传播度很广，精选…

来源：https://zhuanlan.zhihu.com/p/697448133

ShowMeAI | 全球最有前途的100家AI公司，中国2家上榜；混合专家模型MoE详解；人大最新《大语言模型》电子书开放下载；斯坦福最新AI指数报告

日报&周刊合集 | 生产力工具与行业应用大全 | 点赞关注评论拜托啦！ 1. CB Insights 发布「AI 100 2024」榜单，评选出全球最有前途的 100 家人工智能公司 [图片] CB Insights 是全球知名的市场情报分析机构，以其深入的数据分析、前瞻性的行业洞察而著称。CB Insights 最近发布了「AI 100 2024 」榜单，综合考虑了公司交易活动、行业合作伙伴关系、团队实力、投资者实力、专利活动、专项评分等数据维度，并结合 CB Insights 调研和访谈，…

来源：https://zhuanlan.zhihu.com/p/696949266

Aminer.cn

大型语言模型的不确定性表达：忠实度与准确性

大模型(LLM)是一种人工智能模型，旨在理解和生成人类语言。

来源：https://www.aminer.cn/research_report/665fc8bac028d8419b0a4168

清华大学唐杰：大模型与超级智能

本文探讨了大模型的发展历程，介绍了作者团队研发的GLM-4大模型，并针对AGI研究面临的挑战对AGI未来发展提出了一些思考。

来源：https://www.aminer.cn/research_report/665fc671c028d8419b0a3f77

训练数据匮乏：LLM在正式定理证明中的挑战

别担心，AMiner AI会帮助你高效检索和阅读文献！

来源：https://www.aminer.cn/research_report/665d2bd6c028d8419b08ba06

GPU内存瓶颈：大规模语言模型推理能力的制约因素

想把握最新的科技进展和研究成果，却发现自己的阅读速度根本赶不上文献产出的速度？

来源：https://www.aminer.cn/research_report/665555cec028d8419b0438c5

虚构事实的担忧：大型语言模型的新知识处理能力

AMiner AI，一款集发现论文、分析论文、理解论文、写作论文于一体的科研小助手。它会帮助你更加游刃有余地穿梭在学术海洋中，让科研变得更加有趣和高效！

来源：https://www.aminer.cn/research_report/664c3a53707801418e87e415

arXiv.org

Kolmogorov-Arnold Networks for Time Series: Bridging Predictive Power

and Interpretability Kolmogorov-Arnold Networks (KAN) is a groundbreaking model recently proposed by the MIT team, representing a revolutionary approach with the potential to be a game-changer in the field. This innovative concept has rapidly garnered worldwide interest within the AI community. Inspired by the Kolmogorov-Arnold representation theorem, KAN utilizes spline-parametrized univariate functions in place of traditional linear weights, enabling them to dynamically learn activation patterns and significantly enhancing interpretability. In this paper, we explore the application of KAN to time series forecasting and propose two variants: T-KAN and MT-KAN. T-KAN is designed to detect concept drift within time series and can explain the nonlinear relationships between predictions and previous time steps through symbolic regression, making it highly interpretable in dynamically changing environments. MT-KAN, on the other hand, improves predictive performance by effectively uncovering and leveraging the complex relationships among variables in multivariate time series. Experiments validate the effectiveness of these approaches, demonstrating that T-KAN and MT-KAN significantly outperform traditional methods in time series forecasting tasks, not only enhancing predictive accuracy but also improving model interpretability. This research opens new avenues for adaptive forecasting models, highlighting the potential of KAN as a powerful and interpretable tool in predictive analytics.

来源：http://arxiv.org/abs/2406.02496v1

Social Choice Should Guide AI Alignment in Dealing with Diverse Human

Feedback Foundation models such as GPT-4 are fine-tuned to avoid unsafe or otherwise problematic behavior, such as helping to commit crimes or producing racist text. One approach to fine-tuning, called reinforcement learning from human feedback, learns from humans' expressed preferences over multiple outputs. Another approach is constitutional AI, in which the input from humans is a list of high-level principles. But how do we deal with potentially diverging input from humans? How can we aggregate the input into consistent data about "collective" preferences or otherwise use it to make collective choices about model behavior? In this paper, we argue that the field of social choice is well positioned to address these questions, and we discuss ways forward for this agenda, drawing on discussions in a recent workshop on Social Choice for AI Ethics and Safety held in Berkeley, CA, USA in December 2023.

来源：http://arxiv.org/abs/2404.10271v2

Towards Neural Architecture Search for Transfer Learning in 6G Networks

The future 6G network is envisioned to be AI-native, and as such, ML models will be pervasive in support of optimizing performance, reducing energy consumption, and in coping with increasing complexity and heterogeneity. A key challenge is automating the process of finding optimal model architectures satisfying stringent requirements stemming from varying tasks, dynamicity and available resources in the infrastructure and deployment positions. In this paper, we describe and review the state-of-the-art in Neural Architecture Search and Transfer Learning and their applicability in networking. Further, we identify open research challenges and set directions with a specific focus on three main requirements with elements unique to the future network, namely combining NAS and TL, multi-objective search, and tabular data. Finally, we outline and discuss both near-term and long-term work ahead.

来源：http://arxiv.org/abs/2406.02333v1

MEDIQ: Question-Asking LLMs for Adaptive and Reliable Clinical Reasoning

In high-stakes domains like clinical reasoning, AI assistants powered by large language models (LLMs) are yet to be reliable and safe. We identify a key obstacle towards reliability: existing LLMs are trained to answer any question, even with incomplete context in the prompt or insufficient parametric knowledge. We propose to change this paradigm to develop more careful LLMs that ask follow-up questions to gather necessary and sufficient information and respond reliably. We introduce MEDIQ, a framework to simulate realistic clinical interactions, which incorporates a Patient System and an adaptive Expert System. The Patient may provide incomplete information in the beginning; the Expert refrains from making diagnostic decisions when unconfident, and instead elicits missing details from the Patient via follow-up questions. To evaluate MEDIQ, we convert MEDQA and CRAFT-MD -- medical benchmarks for diagnostic question answering -- into an interactive setup. We develop a reliable Patient system and prototype several Expert systems, first showing that directly prompting state-of-the-art LLMs to ask questions degrades the quality of clinical reasoning, indicating that adapting LLMs to interactive information-seeking settings is nontrivial. We then augment the Expert with a novel abstention module to better estimate model confidence and decide whether to ask more questions, thereby improving diagnostic accuracy by 20.3%; however, performance still lags compared to an (unrealistic in practice) upper bound when full information is given upfront. Further analyses reveal that interactive performance can be improved by filtering irrelevant contexts and reformatting conversations. Overall, our paper introduces a novel problem towards LLM reliability, a novel MEDIQ framework, and highlights important future directions to extend the information-seeking abilities of LLM assistants in critical domains.

来源：http://arxiv.org/abs/2406.00922v2

A Survey of Transformer Enabled Time Series Synthesis

Generative AI has received much attention in the image and language domains, with the transformer neural network continuing to dominate the state of the art. Application of these models to time series generation is less explored, however, and is of great utility to machine learning, privacy preservation, and explainability research. The present survey identifies this gap at the intersection of the transformer, generative AI, and time series data, and reviews works in this sparsely populated subdomain. The reviewed works show great variety in approach, and have not yet converged on a conclusive answer to the problems the domain poses. GANs, diffusion models, state space models, and autoencoders were all encountered alongside or surrounding the transformers which originally motivated the survey. While too open a domain to offer conclusive insights, the works surveyed are quite suggestive, and several recommendations for best practice, and suggestions of valuable future work, are provided.

来源：http://arxiv.org/abs/2406.02322v1

齐思

齐思头条2024/06/05「FineWeb-Edu数据集发布，Meta Llama 3模型细节公开，NVIDIA RAPIDS提升Pandas性能50倍，LoRA微调效率高，NVIDIA Project G-Assist游戏助手发布」

Twitter:

FineWeb-Edu 数据集发布 : FineWeb-Edu 数据集 ，一个高质量的LLM数据集，已发布，将原始的15万亿个token过滤为1.3万亿个最高教育质量的token，由Llama 3 70B评估。该数据集被认为是有史以来发布的最佳开放文本数据集，使公司能够训练自己的GPT模型，显著提高教育基准 (source, source, source)。

Meta Llama 3 模型细节发布 : Meta发布了关于Llama 3 模型 的更多细节，提供了其架构和能力的见解。详细信息可以在Meta分享的模型卡中找到，并计划在未来几个月内发布详细的研究论文 (source, source)。

NVIDIA的RAPIDS集成提升Pandas性能 : 在COMPUTEX 2024 上，NVIDIA CEO Jensen展示了将RAPIDS cuDF 与标准Pandas集成如何在Google Colab 上将代码执行速度提高50倍 ，无需任何代码修改。只需在Pandas代码中添加%load-ext cudf.pandas即可实现此增强功能，详细信息见公告。

LoRA在微调中的效率 : Cody Blakeney和Rohan Paul的论文《LoRA Learns Less and Forgets Less》强调LoRA 在微调中比连续预训练更有效，表现出强大的正则化效果和内存效率，通过训练选定权重矩阵的低秩扰动来实现。详细发现和与全微调的比较见论文。

NVIDIA的Project G-Assist用于游戏 : NVIDIA 在Computex上宣布了Project G-Assist ，一个类似于ChatGPT的工具，旨在为游戏提供上下文感知的帮助 和个性化响应。它可以理解游戏内事件，优化系统设置，并提供实时指导，详见公告。

RULER基准测试长上下文LLM : NVIDIA的RULER 基准测试显示，只有四个模型（GPT-4、Command-R、Yi-34B和Mixtral）在32K token上下文 中保持令人满意的性能。RULER使用合成任务测试LLM处理长上下文的能力，减少对参数知识的依赖，详见研究。

Databricks收购Tabulario : Databricks 宣布收购Tabulario ，一个由Apache Iceberg 原始创建者开发的数据平台。此举旨在为Delta Lake OSS 和Apache Iceberg 带来格式兼容性，更多详情见公告推文。

演示为基础的语言模型反馈 : 一种使用演示作为直接反馈 的新方法在对齐语言模型方面显著优于少量提示、监督微调（SFT）和其他自我对弈方法。该方法及其代码库可供进一步探索 (source, source)。

AI在科学中的可重复性危机 : Yann LeCun和Arvind Narayanan强调了基于ML的科学中的可重复性危机 ，指出数据泄漏和研究人员的过度乐观等问题。他们提出了REFORMS检查表 等解决方案，并呼吁文化变革以促进更批判的探究，详见文章和评论。

嵌入模型在金融应用中的微调 : Philipp Schmid讨论了使用NVIDIA的2023 SEC Filing数据集 微调嵌入模型所取得的性能提升 。微调过程结合了Matryoshka表示学习 ，性能提升在7.4%到22.55% 之间，详见博客文章。

WonderJourney by Stanford SVL : WonderJourney 由斯坦福视觉与学习实验室开发，是一种生成式AI，可以从单个图像或文本创建多样且相互关联的3D场景之旅，灵感来自《爱丽丝梦游仙境》。该工具允许用户基于文本或视觉输入进行可视化和创建沉浸式体验 (source)。

SμPar: 稀疏最大更新参数化 : SμPar 是一种新的参数化方法，用于优化模型更新，确保最佳超参数在不同宽度或稀疏级别上保持一致。这显著减少了超参数调优的成本，并实现了优越的损失性能 (source)。

NVIDIA NIMs用于生成式AI : NVIDIA推出了NVIDIA NIMs ，推理微服务，将模型作为优化容器部署在各种基础设施上，显著提高计算效率。例如，在NIM中运行Meta Llama 3-8B可以在加速基础设施上生成多达3倍的生成式AI token，详见推文。

扩散模型用于代码生成 : 一篇新的博士论文介绍了用于代码生成的扩散模型 ，直接编辑程序的语法树，实现增量代码编写、执行和调试。这种创新方法在推文中进行了讨论。

Google Gemini 1.5 Pro的日语语言模型 : Google的Gemini 1.5 Pro 在日语语言模型中排名第一，相较于之前的版本有显著改进。模型的增强及其在日本的认可在推文中进行了详细说明。

线性注意力模型中的状态空间对偶性 : Tri Dao和Albert Gu的研究提出了状态空间对偶性 的理论框架，证明了许多线性注意力变体和状态空间模型（SSMs）是等价的。他们的模型Mamba-2在语言建模中表现优于其前身，并与强大的Transformer架构相匹配，详见推文。

OpenAI员工辞职和公开信 : 一群现任和前任OpenAI员工，包括Yoshua Bengio、Geoffrey Hinton和Stuart Russell，发布了一封公开信，题为“关于高级人工智能的警告权利”。这封信讨论了对AGI负责任发展的担忧。

Hugging Face和Nvidia合作Llama3 : Hugging Face已将Nvidia NIM 直接集成到其中心，用于Llama3 ，使其成为AI计算的门户，详见Clement Delangue的推文。此次合作旨在提高AI模型训练的可访问性和效率。

LiveKit的2200万美元A轮融资 : LiveKit 宣布获得2200万美元A轮融资，用于开发AI的传输层，专注于实时语音和视频交互。此次融资受到了GPT-4 演示的影响，突显了更自然和人性化计算机交互的需求，详见公告推文。

MistralAI的开源模型 : MistralAI 的开源模型在BFCL的简单函数基准测试中表现优于其商业产品，得益于结构化生成。此成就在dottxtai的推文中进行了讨论。

Suno AI的新声音到歌曲功能 : Suno AI 推出了一项功能，可以从任何输入声音生成新歌曲，展示了其在各种演示中的能力。此创新工具在推文和相关帖子中进行了详细说明。

LLM中的概念几何 : 一项关于LLM中分类概念几何 的研究表明，简单概念表示为单纯形，而复杂概念表示为多面体。这种层次结构在论文和相关推文中进行了讨论。

OpenAI的Assistants API定制功能 : OpenAI在其Assistants API中引入了新功能，允许用户自定义文件的分块方式并调整返回的块数。更多详情见公告。

Google AI的航运网络设计API : Google AI推出了一个新的航运网络设计API ，旨在优化全球集装箱航运网络的效率。该API解决了班轮航运网络设计和调度问题，详见发布。

HackerNews:

Yingzi link: 这篇文章讨论了中文书写系统的复杂性以及转换为拼音系统的挑战。讨论重点包括：

汉字的实用性: 汉字因传统和实用性而被使用。它们允许不同方言之间的交流，这些方言通常是互不理解的。例如，字符“工”无论发音如何，都表示“工作”。
语言与方言: 语言和方言之间的区别在于政治，而不是语言学。这就是为什么“中文”的不同变体通常被归为一类。
识字率和书写系统: 历史上，识字率较低，中文书写系统在秦朝期间标准化。中文的音韵结构复杂，使其难以成为音节文字。
与其他语言的比较: 日语使用汉字（kanji）使句子更短且不易产生歧义。韩语已经远离汉字，阅读起来更容易，但没有汉字的日语可能会很难理解。
转换系统的挑战: 在中国转换到单一方言或拼音系统将极其困难，就像美国从英制单位转换到公制单位一样。

英特尔推出Lunar Lake架构 link: 英特尔的新Lunar Lake架构引入了新的P核和E核、Xe2-LPG图形和NPU 4，以增强AI性能。

讨论重点包括：

安全问题: 需要支持真正私有状态的硬件，而不仅仅是沙盒环境。苹果的Secure Enclave被提及为朝正确方向迈出的一步，但问题仍然是为什么服务器不是完全由安全飞地构建的。
P核数据库更新: P核设计从“fubs海洋”到“单元海洋”的过渡旨在通过从较大到较小的构建块来提高效率。
台积电的利用: 英特尔在这一代产品中充分利用了台积电，Lunar Lake采用台积电N3B工艺制造。
内存带宽和集成GPU: 内存带宽仍然是一个限制因素，但希望集成GPU性能的改进能使桌面产品受益。Lunar Lake SoC包括高达32 GB的LPDDR5X内存，类似于苹果的M系列芯片。
微软的策略: 有猜测认为微软可能正在努力将CPU商品化，可能会加强其地位，同时削弱ARM、AMD和英特尔的地位。历史上，微软支持各种ISA，但市场采用有限。

Discord:

TensorRT插件显著提升ComfyUI性能 ：@ruiner69报告使用TensorRT插件 将ComfyUI的图像生成时间从44秒减少到14秒，支持Stable Diffusion 1.5, 2.1, SDXL, SDXL Turbo, Stable Video Diffusion, 和 Stable Video Diffusion-XT 。详细信息见GitHub仓库。

GPT-4在复杂提示处理上的局限性 ：@akingsmaker指出GPT-4 在处理多重指南和输出的复杂提示时表现不佳，需要5天的微调，仍然不一致且重复。

WizardLM 2性能优于GPT-4 ：@akanefr提到WizardLM 2 ，一个开源模型，性能优于GPT-4，但已被微软停用，可本地托管，提供更优的文本生成能力。

三维智能鱼类养殖系统 ：@wanws6725讨论了一个结合光伏和微风发电 的陆地三维智能鱼类养殖系统，融合了可持续能源和先进的水产养殖技术。

COPE改进位置编码 ：COPE 通过使用门控机制和插值分配分数位置值，改进了旋转位置编码（ROPE） ，在计数和序列建模任务中表现更佳。更多细节见YouTube视频。

Elicit用于医学研究 ：@gurkenglas推荐Elicit作为查找研究论文和回答复杂问题的工具，特别适用于细胞信号传导相关问题，免费使用。

人工Ivan v.4.0 ：@sssandra提到人工Ivan 是Cohere的一个持续项目，当前版本为4.0，具备代码故障排除能力，并提供自动化肯定句功能，访问链接。

Grounded Generation通过Chat API ：@meor.amer解释了使用Chat API进行Grounded Generation 的好处，避免前言并直接在消息中包含文档，结果更准确，引用更精确。示例见链接。

Stable Diffusion 3 Medium发布 ：StabilityAI宣布Stable Diffusion 3 Medium 将于6月12日开放发布，用户可在此处注册等待名单。

LlamaIndex的RAG模型与DALL-E集成 ：@krunal_joshi讨论了使用llamaindex 构建RAG模型并集成DALL-E 进行基于响应的图像生成，生成的图像包含在最终响应中。

2:4稀疏性基准测试 ：@marksaroufim分享了2:4稀疏性基准测试，在Ampere+ GPU（如3090, 4090）上显示性能提升10-23%，精度下降最小。

ARM可扩展矩阵扩展（SME） ：@iron_bound分享了ARM SME 的见解，增强了矩阵操作，构建在SVE和SVE2 之上，关键特性包括向量外积、矩阵瓦片存储和流SVE模式。更多信息见ARM SME介绍。

QNN与SNPE的比较 ：@jamesmel和@mobicham讨论了QNN 实际上是SNPE （SNPE2）的重新命名，支持相同的.dlc格式和.so文件，QNN专注于更新的高通AI引擎，而SNPE支持更广泛的芯片组。更多信息见SNPE文档。

Groq的GPT-4级别聊天机器人 ：@swyxio提到Groq的GPT-4级别聊天机器人 ，免费使用，处理速度超过800 tokens每秒。更多信息见链接。

Mojo中的Trait Objects ：@jack.clayton确认Mojo将支持trait objects ，这对于创建类似Python的异构列表至关重要，使Mojo成为Python的完整超集。

Mojo中的继承结构 ：@clattner和@lukashermann.com讨论了ComparableCollectionElement 继承自CollectionElement ，目标是简化List仅需movable traits或甚至AnyType 。更多信息见源码。

Mojo中的默认异步 ：@nick.sm提议使所有Mojo函数隐式async，避免阻塞，特别是在GPU编程中，减少样板代码，但可能会使Python程序员的过渡复杂化。

SIMT线程的调度器 ：@nick.sm强调库作者需要为SIMT线程编写调度器，以有效管理warp分歧，允许顺序、分支代码而无需手动状态机管理。

FSDP QLoRA训练资源 ：@coffeevampir3分享了一个用于FSDP QLoRA 训练的GitHub仓库，对实施此方法有帮助。

DeepSpeed与QLoRA兼容性 ：@rtyax提到DeepSpeed 适用于他们的训练设置，但不支持bnb quant （4/8-bit加载），因此QLoRA 在此上下文中不可用。

AI在医学图像诊断中的局限性 ：@nruaif分享了一项研究"Worse than Random? An Embarrassingly Simple Probing Evaluation of Large Multimodal Models in Medical VQA"，指出当前AI模型在医学图像诊断等关键领域不可靠，表现比随机还差。

Vision LLMs与医学LLMs的区别 ：@kaltcit解释了vision LLMs 专注于下一个词预测，将输入转换为下一个token输出，而真正的医学LLM 使用隐藏状态映射疾病。使用vision LLMs进行医学图像识别类似于使用GPT评估另一个GPT模型。

HuggingFace & Github:

虚拟人生成与视频生成技术

MusePose 是一个基于姿势驱动的图像到视频生成框架，用于虚拟人物生成。该框架能够根据姿势序列从单个参考图像创建高质量舞蹈视频。由腾讯团队领导的Bin Wu开发，MusePose通过姿势对齐算法 将任意舞蹈视频与任意参考图像对齐，显著提升了性能和用户友好性。MusePose发布了预训练模型和推理代码，适用于非商业研究目的。

虚拟机和容器管理

Proxmox VE辅助脚本 提供了一组脚本，通过对话框界面引导用户，简化了Linux容器和虚拟机的设置过程。脚本允许用户进行简单和高级配置，确保输入经过验证，减少配置错误的可能性。

游戏开发与测试

2ship2harkinian 是一个GitHub项目，用于游戏测试目的的持续集成构建。该存储库邀请社区参与，提供反馈以改进游戏开发过程，尽管目前可能会遇到错误和潜在崩溃。

问卷系统开发

XIAOJUSURVEY 是一个开源、轻量级、安全的问卷系统，面向个人和企业提供一站式产品级解决方案。该系统支持超过40种问题类型和100多个模板，适用于市场调研、客户满意度调查、在线考试等。技术方面采用Vue3 + ElementPlus和Nestjs + MongoDB，具备快速接入和灵活扩展的优势。

来源：https://news.miracleplus.com/share_link/29018

感谢社区厚爱，面壁小钢炮 MiniCPM 免费商用

开源社区合作努力的成果，MiniCPM模型现已可免费商用。该模型以其出色的OCR功能和多模态性能而获得认可，受到知名人工智能行业人士的赞誉。OpenBMB团队通过开源16个量化模型并增加新的部署和定制功能进一步增强了MiniCPM。这一举措展示了开源合作在推动人工智能技术方面的力量，并邀请社区内继续支持和合作。如果您对开源创新与商业人工智能应用的交汇点感兴趣，本内容可能为您提供有关最新发展和塑造人工智能未来的社区驱动理念的宝贵见解。

来源：https://mp.weixin.qq.com/s/NvM3eTvVBX4A8IUWsh3Y9w

GitHub-QuivrHQ/MegaParse：针对LLM摄入优化的文件分析器，无损失🧠 以LLM的理想格式解析PDF、Docx、PPTx。

MegaParse 是一款全面的文件解析器，旨在优化大型语言模型（LLMs）对文档的摄取，同时不损害信息完整性。它支持各种文件类型，包括 PDF、Powerpoint 演示文稿、Word 文档、Excel 表格和 CSV 文件。MegaParse 特别值得注意的地方在于其致力于在解析过程中保留所有内容元素，如表格、页眉、页脚和图片。这确保了解析后的数据尽可能接近原始数据，这对于在向LLMs提供信息时保持上下文和含义至关重要。

该工具不仅多功能，而且快速高效，这对于处理大量文档的开发人员和研究人员来说是一个重要优势。此外，MegaParse 是开源的，可以根据个人需求自由修改和使用软件，而无需任何费用。

对于那些希望进一步提升解析结果的人来说，MegaParse 提供了与 LlamaParse 集成的选项，这可以改善解析输出的质量。该指南还包括了表明使用 MegaParse 结合 LlamaParse 和 GPTCleaner 的性能优势的基准分数。

总的来说，MegaParse 对于任何希望为LLMs处理文档的人来说都可能是一种宝贵的资源，确保用于训练或查询这些模型的数据准确且结构良好。其开源性质以及通过其他工具获得改进结果的潜力使其值得考虑，特别是对于涉及文档解析和LLM数据准备的项目。

来源：https://github.com/QuivrHQ/MegaParse

别慌！一文教你看懂GPT-4o背后的语音技术

这篇内容深入探讨了OpenAI最新的GPT-4o模型，该模型具有实时、低延迟的语音生成能力。它以多模态的特性脱颖而出，能够接受和生成各种输入和输出，包括文本、音频、图像和视频。讨论包括语言模型的演变，通过将语音分解为标记来理解和合成语音。特别值得一提的是创新的零样本TTS模型以及探索额外语音参数以增强质量和稳健性。内容还揭示了创建具有低延迟交互的对话系统的挑战，以及在游戏AI语音表演中文本引导TTS的潜力。对于那些对语音合成的未来和TTS技术的技术进步感兴趣的人来说，这篇文章提供了全面的概述，并提出了将GPT-4o的能力整合到TTS系统中的路线图。对于人工智能和语音技术领域的爱好者和专业人士来说，这是一篇有价值的阅读，提供了关于最新发展的见解，并思考模型输出与人类偏好的对齐问题。

来源：https://mp.weixin.qq.com/s/RKSrystS53HN4C0POr6PYQ

大模型创业资料集：2023-2024 大模型日报精华盘点

这篇内容是关于“大模型日报”通讯的全面总结，自2023年3月以来一直追踪着智能通用领域的最新发展，特别关注像GPT3.5这样的大规模人工智能模型。由奇点加（前身为Y Combinator China）编制的这个收藏提供了大量信息，对于人工智能领域的创业者来说是一宝库，包括700多篇顶尖研究论文、近500种创新产品以及400多个全球投资趋势。此外，它提供了50个学习资源，帮助创始人，即使是那些没有技术背景的人，亲自动手进行产品开发。这个指南特别有价值，因为它对内容进行了分类和标记，便于访问，涵盖了多模态人工智能、长文本生成、内容创作和自动驾驶等领域。如果您是一位希望保持在人工智能技术前沿并利用它为您的创业公司提供灵感和实际解决方案的创业者，这个资源可能是一个灵感和实用解决方案的宝库。通过内容中提供的QR码可以访问完整数据集。

来源：https://mp.weixin.qq.com/s/KhRNrkI1J9HZK3nAnsbjjg

小互

Seed-TTS：由字节跳动开发的几乎完美接近人类的文本到语音（TTS）模型

来源：https://xiaohu.ai/p/9090

Mobile-Agent-v2：让AI可以像真人一样来操控你的手机执行各种任务

来源：https://xiaohu.ai/p/9074

教程：只需合适的提示词使用 ChatGPT 在 Blender 中创建3D场景

来源：https://xiaohu.ai/p/9058

TimeUi：简化ComfyUI 动画编辑的时间线节点系统

来源：https://xiaohu.ai/p/9049

Backseat AI：英雄联盟 AI 游戏伴侣通过语音为玩家提供实时的游戏评论和建议

来源：https://xiaohu.ai/p/9039

宝玉

什么是提示词注入攻击？ [译]

我们将介绍提示词注入的工作原理、常见类型以及潜在的风险和后果。你将了解提示词注入如何使得系统生成错误信息、编写恶意软件，甚至可能导致数据泄露和系统远程接管。视频还会探讨应对提示词注入的多种方法，包括数据审查、最小权限原则、人类反馈强化学习等。

来源：https://baoyu.io/translations/transcript/what-is-a-prompt-injection-attack

NVIDIA 公布了到 2027 年的 GPU 和互连路线图 [译]

在计算、网络和图形的发展历史上，Nvidia 有许多独特之处。此刻，它拥有大量资金，并且凭借其架构、工程和供应链在生成式 AI (generative AI) 市场中占据了领先地位，使其能够随心所欲地制定任何可能带来进展的路线图。

来源：https://baoyu.io/translations/nvidia/nvidia-unfolds-gpu-interconnect-roadmaps-out-to-2027

使用大语言模型 (LLMs) 构建产品一年后的经验总结 (第二部分)[译]

运营大语言模型应用程序提出了一些在运营传统软件系统时熟悉的问题，但通常有新的变化来保持新鲜感。大语言模型应用程序还提出了全新的问题。我们将这些问题及其答案分为四部分：数据、模型、产品和团队。

来源：https://baoyu.io/translations/llm/what-we-learned-from-a-year-of-building-with-llms-part-ii

为什么对于有的人来说 ChatGPT 并没有什么卵用？

看到微博上一位医生这条被 ChatGPT-4o 坑的微博，尝试从技术角度解读一下，这样也许能更好的理解现阶段大语言模型的优缺点，在实际应用中能扬长避短。

来源：https://baoyu.io/blog/ai/why-do-someone-think-chatgpt-doesnot-really-work-for-them

使用大语言模型 (LLMs) 构建产品一年后的经验总结 (第一部分) [译]

现在是使用大语言模型 (LLMs) 构建产品的激动人心的时刻。在过去的一年中，LLMs 的表现已经“足够好”可以应用于现实世界。LLMs 改进的速度，加上社交媒体上的大量演示，将推动预计到 2025 年 AI 投资达到 2000 亿美元。LLMs 的广泛可用性，让每个人，而不仅仅是机器学习工程师和科学家，都能在他们的产品中构建智能。虽然构建 AI 产品的门槛已经降低，但要创建那些不仅仅是演示效果好的产品，仍然充满挑战。

来源：https://baoyu.io/translations/llm/what-we-learned-from-a-year-of-building-with-llms-part-1

Github

Codium-ai/cover-agent

CodiumAI Cover-Agent: An AI-Powered Tool for Automated Test Generation and Code Coverage Enhancement! 💻🤖🧪🐞

来源：https://github.com/Codium-ai/cover-agent

kyegomez/AlphaFold3

Implementation of Alpha Fold 3 from the paper: "Accurate structure prediction of biomolecular interactions with AlphaFold3" in PyTorch

来源：https://github.com/kyegomez/AlphaFold3

SawyerHood/tlbrowse

Generate imagined websites on an infinite canvas

来源：https://github.com/SawyerHood/tlbrowse

6677-ai/tap4-ai-webui

One-click to deploy your own ai tools directory with the open source web-ui

来源：https://github.com/6677-ai/tap4-ai-webui

Bklieger/groqbook

Groqbook: Generate entire books in seconds using Groq and Llama3

来源：https://github.com/Bklieger/groqbook

本文档由扣子生成，资讯版权属于原作者。豆包机器人链接：https://www.coze.cn/store/bot/7343089859382444051?bot_id=true 一支烟花社区提供技术支持，了解更多点击：https://t.zsxq.com/r8NOO 联系开发者微信反馈问题：play-with-ai