2024-06-14 AI资讯：CCF论坛探讨大模型挑战，启动安全赛

一支烟一朵花

已于 2024-06-14 15:28:37 修改

阅读量1.8k

点赞数 26

文章标签：人工智能 ai 业界资讯神经网络

于 2024-06-14 14:17:58 首次发布

本文链接：https://blog.csdn.net/ccc7574/article/details/139680494

版权

智源社区

共话大模型技术进展与挑战，CCF大模型论坛北京会议圆满落幕！

2024 年 6 月 6 日中国计算机学会大模型论坛（CCF FoLM）主题会议在北京顺利举办。本次会议主题为“大模型技术进展与挑战”，各位专家围绕大模型技术的前沿动态、发展趋势及技术挑战等议题展开深入探讨，为广大从业者、研究者提供了一场丰富的学术盛宴。本次会议还宣布了“CCF 大模型安全挑战赛”的正式启动！2024 年 6 月 6 日，中国计算机学会大模型论坛（CCF FoLM）主题会议在北京清华科技园科技大厦举办。CCF 大模型论坛于今年 3 月正式成立，由腾讯、中国移动、三六零集团、海光信息、智谱AI、第四范式、稀宇科技、并行科技、无问芯穹、瑞莱智慧科技、生数科技、清程极智、麦伽智能、...

来源：http://mp.weixin.qq.com/s?__biz=Mzg4MDE3OTA5NA==&mid=2247587203&idx=1&sn=5df6bee6cb48d4bf3c49776aa5f10fb9&chksm=ced1f30c5b245b3f2855bcac8befab58173a8817f8c1264719d2377b8db3d211f5e7fe15f4f9&scene=0&xtrack=1#rd

北京线下：基于脑机接口的视觉重建前沿进展丨周六直播·脑机接口读书会

导语人类70%以上的感知是通过视觉完成的，且有超过1/3的脑组织参与视觉相关的信息处理，因此视觉是极其重要的感知功能。由于外伤和先天后天的疾病造成的视觉损失严重的影响了人们的生存质量，且其中相当一部分疾病和外伤是无法通过眼科矫正或眼科手术来进行恢复。基于脑机接口技术的人工视觉假体新进展给这类病人带来了新的希望。为了进一步梳理脑机接口相关理论与技术前沿，集智俱乐部联合清华大学高小榕、中科院自动化所刘冰、中科院深圳先进院李骁健、清华大学眭亚楠四位老师，发起「脑机接口」读书会。读书会从2024年5月19日开始，每周六19:00-21:00线上举办，持续时间10周左右，欢迎大家加入！简介目前相关研究表...

来源：http://mp.weixin.qq.com/s?__biz=MzIzMjQyNzQ5MA==&mid=2247692369&idx=2&sn=ccd95b50b45d83fe1dff3b4a592d8cc5&chksm=e9d1c4fea0108ee40e25afe33aeb245c3f1b1668af4f107044c1eb763ff62056b1e2d2469f82&scene=0&xtrack=1#rd

InfoQ

越来越多企业采用AI，工业、药物研发、零售等行业加速转型

通过AI技术识别新的机会点，推进产业迈向高效与可持续。

来源：https://www.infoq.cn/article/UAboZWAP114wzq39JYiA

一次性裁掉 50 多名副总裁！小扎的冷血管理哲学：高管也是打工人

在马克·扎克伯格的“永久”效率模式中，Meta 副总裁正受到排挤。

来源：https://www.infoq.cn/article/UftP2CSO2LaqaTy9vhIz

两度入选CVPR，海量视频数据+AI大模型加持，快手KVQ打造视频质量评价“黄金眼”

当前，人类每天创造出约1.77亿TB的视频数据，累计时长足以从史前时代连续播放到现在。如何准确评判视频质量，并兼顾成本和体验，让有限的带宽和算力真正用在“刀刃”上，成为行业的一大难题。

来源：https://www.infoq.cn/article/gc3oNgtmlcZTr0cAqr9y

喜发新模型，却被众嘲是破产“前兆”！Stability AI “最强”模型人形绘制太“阴间”，网友：因为研发太讲武德

6月12日，Stability AI 推出了 Stable Diffusion 3 Medium，这家英国初创公司称其为“迄今为止最先进的文本到图像开放模型”。

来源：https://www.infoq.cn/article/29AtySiZV6MB129O6Xxe

美图奇想大模型进阶至V5，一口气发布6款新品喊话友商：快来抄作业

从诞生至今已经步入第16个年头的美图，已经不再只是一个纯C端产品。

来源：https://www.infoq.cn/article/eSLdPhJ3dD4WC88KS8tY

ShowMeAI社区

打造AI爆款应用<新>黄金法则；盘点20款最流行AI搜索工具；ChatGPT对在线知识社区的影响；100万用户教会我的5个教训 | ShowMeAI日报

盘点 20 款最流行的AI搜索应用，你最喜欢哪几个？ [图片] 国内秘塔AI搜索 https://metaso.cn/ 好用，免费，国内 Top 水平天工AI (昆仑万维) https://www.tiangong.cn/ 好用，免费，技术实力 Top 且快速升级中简单搜索 App (百度) https://secr.baidu.com/ 只有手机版，规规矩矩的一款AI增强搜索应用 360 AI 搜索 https://so.360.com 最近数据增长蛮快的，综合体验比较流畅澜舟AI搜索 https://ai-search.langboat.com 中规中矩 BrainStorm …

来源：https://zhuanlan.zhihu.com/p/698345703

又一款爆火AI游戏诞生！《换你来当爹》做对了什么？| ShowMeAI体验报告

[图片] 社区里几百人玩一款AI游戏的场面，值得记录一下！大模型游戏化极度看重〖有趣〗程度。可有趣的灵魂那么难得，以至于只要一眼，我们就在产品的海洋里发现了 ta 。1. 有趣的灵魂在发疯疯疯《换你来当爹》是一款全员发疯的AI游戏，主线任务是任意设定一个角色，然后把他培养成「大孝子」！灵感估计来源于男生大学宿舍里互相喊「爸爸」的传统？看到设定的一瞬间，会心一笑游戏最初在即刻平台出圈，随后传回微信社群，并成功激发起…

来源：https://zhuanlan.zhihu.com/p/697856247

朱啸虎：AI应用明年肯定大爆发；第3款爆火AI游戏出现了；AI应用定价策略「不能说的秘密」；人类数据不够用了怎么办 | ShowMeAI日报

日报&周刊合集 | 生产力工具与行业应用大全 | 点赞关注评论拜托啦！1. 换你来当爹：国内第3款爆火出圈的AI游戏应用，hhh 太搞笑了 [图片] 周末的时候，社群里伙伴们开始玩一款「换你来当爹」的AI游戏进入游戏界面后，输入名字，系统随机生成孩子的「出生设定」。然后恭喜你！可以开始当爹了！！好大儿的培养过程，伴随着各种糟心的意外，然后把难题摆在你面前。哎呀呀！逆子… 这时，你可以在系统给定的两个选项中选择一个，当然也…

来源：https://zhuanlan.zhihu.com/p/697655366

上海交通大学《动手学大模型》编程实战课；提示工程大赛冠军经验分享；AI Agent最新行业地图(3份)；人类与ChatGPT恋爱行为指南；提升AI产品留存率的7个技巧 | ShowMeAI日报

日报&周刊合集 | 生产力工具与行业应用大全 | 点赞关注评论拜托啦！ 1. 终于来了！OpenAI 周一官网直播，ChatGPT 和 GPT-4 上新啦！ [图片] Sam Altman 和 OpenAI 近期一直在造势，演讲、访谈、小更新等动作不断。终于！官方推特宣布，将于美西时间5月13日上午10点 (⏰ 北京时间5月14日凌晨1点) 在 OpenAI 官网进行直播，演示 ChatGPT 和 GPT-4 的更新。到底会更新什么呢？！！各方还在猜来猜去。@indigo 的猜测帖传播度很广，精选…

来源：https://zhuanlan.zhihu.com/p/697448133

ShowMeAI | 全球最有前途的100家AI公司，中国2家上榜；混合专家模型MoE详解；人大最新《大语言模型》电子书开放下载；斯坦福最新AI指数报告

日报&周刊合集 | 生产力工具与行业应用大全 | 点赞关注评论拜托啦！ 1. CB Insights 发布「AI 100 2024」榜单，评选出全球最有前途的 100 家人工智能公司 [图片] CB Insights 是全球知名的市场情报分析机构，以其深入的数据分析、前瞻性的行业洞察而著称。CB Insights 最近发布了「AI 100 2024 」榜单，综合考虑了公司交易活动、行业合作伙伴关系、团队实力、投资者实力、专利活动、专项评分等数据维度，并结合 CB Insights 调研和访谈，…

来源：https://zhuanlan.zhihu.com/p/696949266

Aminer.cn

文本压缩与大型语言模型：长文本处理的革新

想把握最新的科技进展和研究成果，却发现自己的阅读速度根本赶不上文献产出的速度？

来源：https://www.aminer.cn/research_report/6668fc88c028d8419b0f8b66

北大团队提出 BoT：让 Llama3-8B 超越 Llama3-70B｜大模型周报

Mamba-2：速度提高 2-8 倍，与 Transformers 媲美

来源：https://www.aminer.cn/research_report/6668fb5dc028d8419b0f8a50

大型语言模型的不确定性表达：忠实度与准确性

大模型(LLM)是一种人工智能模型，旨在理解和生成人类语言。

来源：https://www.aminer.cn/research_report/665fc8bac028d8419b0a4168

清华大学唐杰：大模型与超级智能

本文探讨了大模型的发展历程，介绍了作者团队研发的GLM-4大模型，并针对AGI研究面临的挑战对AGI未来发展提出了一些思考。

来源：https://www.aminer.cn/research_report/665fc671c028d8419b0a3f77

训练数据匮乏：LLM在正式定理证明中的挑战

别担心，AMiner AI会帮助你高效检索和阅读文献！

来源：https://www.aminer.cn/research_report/665d2bd6c028d8419b08ba06

arXiv.org

Magpie: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs

with Nothing High-quality instruction data is critical for aligning large language models (LLMs). Although some models, such as Llama-3-Instruct, have open weights, their alignment data remain private, which hinders the democratization of AI. High human labor costs and a limited, predefined scope for prompting prevent existing open-source data creation methods from scaling effectively, potentially limiting the diversity and quality of public alignment datasets. Is it possible to synthesize high-quality instruction data at scale by extracting it directly from an aligned LLM? We present a self-synthesis method for generating large-scale alignment data named Magpie. Our key observation is that aligned LLMs like Llama-3-Instruct can generate a user query when we input only the left-side templates up to the position reserved for user messages, thanks to their auto-regressive nature. We use this method to prompt Llama-3-Instruct and generate 4 million instructions along with their corresponding responses. We perform a comprehensive analysis of the extracted data and select 300K high-quality instances. To compare Magpie data with other public instruction datasets, we fine-tune Llama-3-8B-Base with each dataset and evaluate the performance of the fine-tuned models. Our results indicate that in some tasks, models fine-tuned with Magpie perform comparably to the official Llama-3-8B-Instruct, despite the latter being enhanced with 10 million data points through supervised fine-tuning (SFT) and subsequent feedback learning. We also show that using Magpie solely for SFT can surpass the performance of previous public datasets utilized for both SFT and preference optimization, such as direct preference optimization with UltraFeedback. This advantage is evident on alignment benchmarks such as AlpacaEval, ArenaHard, and WildBench.

来源：http://arxiv.org/abs/2406.08464v1

OLMES: A Standard for Language Model Evaluations

Progress in AI is often demonstrated by new models claiming improved performance on tasks measuring model capabilities. Evaluating language models in particular is challenging, as small changes to how a model is evaluated on a task can lead to large changes in measured performance. There is no common standard setup, so different models are evaluated on the same tasks in different ways, leading to claims about which models perform best not being reproducible. We propose OLMES, a completely documented, practical, open standard for reproducible LLM evaluations. In developing this standard, we identify and review the varying factors in evaluation practices adopted by the community - such as details of prompt formatting, choice of in-context examples, probability normalizations, and task formulation. In particular, OLMES supports meaningful comparisons between smaller base models that require the unnatural "cloze" formulation of multiple-choice questions against larger models that can utilize the original formulation. OLMES includes well-considered recommendations guided by results from existing literature as well as new experiments investigating open questions.

来源：http://arxiv.org/abs/2406.08446v1

Dynamic Retrieval Augmented Generation of Ontologies using Artificial

Intelligence (DRAGON-AI) Background: Ontologies are fundamental components of informatics infrastructure in domains such as biomedical, environmental, and food sciences, representing consensus knowledge in an accurate and computable form. However, their construction and maintenance demand substantial resources and necessitate substantial collaboration between domain experts, curators, and ontology experts. We present Dynamic Retrieval Augmented Generation of Ontologies using AI (DRAGON-AI), an ontology generation method employing Large Language Models (LLMs) and Retrieval Augmented Generation (RAG). DRAGON-AI can generate textual and logical ontology components, drawing from existing knowledge in multiple ontologies and unstructured text sources. Results: We assessed performance of DRAGON-AI on de novo term construction across ten diverse ontologies, making use of extensive manual evaluation of results. Our method has high precision for relationship generation, but has slightly lower precision than from logic-based reasoning. Our method is also able to generate definitions deemed acceptable by expert evaluators, but these scored worse than human-authored definitions. Notably, evaluators with the highest level of confidence in a domain were better able to discern flaws in AI-generated definitions. We also demonstrated the ability of DRAGON-AI to incorporate natural language instructions in the form of GitHub issues. Conclusions: These findings suggest DRAGON-AI's potential to substantially aid the manual ontology construction process. However, our results also underscore the importance of having expert curators and ontology editors drive the ontology generation process.

来源：http://arxiv.org/abs/2312.10904v2

Tailoring Generative AI Chatbots for Multiethnic Communities in Disaster

Preparedness Communication: Extending the CASA Paradigm This study is among the first to develop different prototypes of generative AI (GenAI) chatbots powered by GPT 4 to communicate hurricane preparedness information to diverse residents. Drawing from the Computers Are Social Actors (CASA) paradigm and the literature on disaster vulnerability and cultural tailoring, this study conducted a between-subjects experiment with 441 Black, Hispanic, and Caucasian residents of Florida. A computational analysis of chat logs (N = 7,848) shows that anthropomorphism and personalization are key communication topics in GenAI chatbot-user interactions. SEM results (N = 441) suggest that GenAI chatbots varying in tone formality and cultural tailoring significantly predict bot perceptions and, subsequently, hurricane preparedness outcomes. These results highlight the potential of using GenAI chatbots to improve diverse communities' disaster preparedness.

来源：http://arxiv.org/abs/2406.08411v1

Large Language Models Must Be Taught to Know What They Don't Know

When using large language models (LLMs) in high-stakes applications, we need to know when we can trust their predictions. Some works argue that prompting high-performance LLMs is sufficient to produce calibrated uncertainties, while others introduce sampling methods that can be prohibitively expensive. In this work, we first argue that prompting on its own is insufficient to achieve good calibration and then show that fine-tuning on a small dataset of correct and incorrect answers can create an uncertainty estimate with good generalization and small computational overhead. We show that a thousand graded examples are sufficient to outperform baseline methods and that training through the features of a model is necessary for good performance and tractable for large open-source models when using LoRA. We also investigate the mechanisms that enable reliable LLM uncertainty estimation, finding that many models can be used as general-purpose uncertainty estimators, applicable not just to their own uncertainties but also the uncertainty of other models. Lastly, we show that uncertainty estimates inform human use of LLMs in human-AI collaborative settings through a user study.

来源：http://arxiv.org/abs/2406.08391v1

齐思

齐思头条2024/06/13「Google DeepMind发布TORAX模拟器，ARC PRIZE推出百万美元AI竞赛，LiveBench AI引入动态LLM基准测试，Meta Llama 3黑客马拉松展示50多个项目，Stable Diffusion 3 Medium发布」

Twitter:

Google DeepMind的TORAX模拟器发布 : Google DeepMind的Fusion团队发布了TORAX，一个开源的托卡马克传输模拟器，使用JAX进行快速、可微分的模拟，并易于与ML代理耦合。此工具旨在推进聚变能量研究，详细信息请见此处。

ARC PRIZE: $1,000,000 AI竞赛 : François Chollet和Mike Knoop发起了ARC PRIZE，一项奖金超过100万美元的竞赛，旨在创建能够适应新颖性并解决简单推理问题的AI，推动AGI的发展。更多详情请见ARC Prize网站和Kaggle竞赛页面。

LiveBench AI: 无法被操纵的LLM基准测试 : Abacus AI与Yann LeCun合作推出了LiveBench AI，一个动态的LLM基准测试，介绍了新的挑战，无法像传统的人类评估那样被操纵。更多详情请见此处。

Meta Llama 3黑客马拉松 : Meta与Cerebral Valley举办了首届Meta Llama 3黑客马拉松，吸引了超过350名参与者，在24小时内创建了50多个项目，展示了Meta Llama 3模型的潜力。详细信息请见此处。

Stable Diffusion 3 Medium发布 : Stability AI宣布发布Stable Diffusion 3 Medium，这是他们最新和最先进的文本到图像AI模型，标志着生成式AI发展的一个重要里程碑。更多详情请见此处。

OpenAI和微软的战略云关系 : OpenAI澄清其与微软的战略云关系保持不变，尽管与OCI合作使用Azure AI在OCI基础设施上进行推理和其他需求。详细信息请见此处。

PGVECTOR性能超越Pinecone : PGVECTOR推出了pgvectorscale，一个开源的PostgreSQL扩展，大大提高了向量搜索的性能和成本效率，通过减少28倍的延迟和增加16倍的吞吐量，超越了Pinecone。更多详情请见此处。

TextGrad: 通过文本进行自动微分 : TextGrad系统引入了通过文本进行自动“微分”，通过LLM提供的文本反馈来改进复合AI系统的各个组件。此方法在LeetCode-Hard上显示了20%的相对增益，并在GPQA上提高了性能。详细信息请见研究论文。

Google扩展RecurrentGemma到90亿参数 : Google成功将其RecurrentGemma模型扩展到90亿参数，标志着高效深度学习研究的重大进展。此扩展预计将增强模型在各种应用中的能力和性能。更多详情请见公告。

Apple的3B参数SLM本地模型 : 在Apple的年度会议上，推出了一个新的3B参数SLM本地模型，使用适配器训练特定功能。此模型可以在本地或Apple的安全云上运行，与OpenAI的模型有所不同。详细信息请见此处。

RAG Over Excel Files by LlamaIndex : LlamaIndex引入了RAG（检索增强生成）技术，解决了在空间网格中格式化内容的挑战，特别是处理包含多个不连续表格的Excel文件。更多信息请见此处。

Google AI的Smart Paste工具 : Google AI推出了Smart Paste，一个内部工具，通过自动调整粘贴的代码来简化代码编写，提高代码开发的效率。更多详情请见Google AI博客。

AI驱动的个性化健康体验 : Google AI的最新研究论文强调了如何通过微调Gemini模型创建个性化的健康体验，适应个人的健康旅程。更多详情请见Google AI博客。

AlphaFold的全球影响 : 由Google DeepMind开发的AlphaFold已被来自120个国家的科学家使用，完成了超过620,000个任务，帮助测试假设和预测复杂的蛋白质-DNA相互作用。更多信息请见Nature文章。

Dream Machine by Luma Labs AI : Luma Labs AI推出了Dream Machine，一个下一代视频模型，使用AI从文本指令和图像创建高质量、逼真的视频镜头。此工具可免费试用，更多详情请见此处。

RecurrentGemma-9B发布 : RecurrentGemma-9B模型利用Griffin架构，结合线性递归和局部注意力，提供更快的推理和下游评估，特别适用于长序列或大批量。详细信息请见公告。

Elon Musk宣布Twitter上的私人点赞功能 : Elon Musk宣布对Twitter功能进行重大更改，使点赞变为私人，以增强用户隐私。用户仍然可以看到自己点赞的帖子，但其他人无法看到，点赞数仍会出现在通知下。更多详情请见推文。

Tesla的自动驾驶更新 : Elon Musk强调了更新后的Tesla车型，指出自动驾驶可能是最具变革性的AI进展之一，对Tesla股东产生重大影响。详细信息请见推文。

Meta Llama 3黑客马拉松回顾 : Meta与Cerebral Valley合作举办了首届Meta Llama 3黑客马拉松，吸引了超过350名与会者，在24小时内完成了50多个项目。详细回顾和顶级项目请见推文。

Google DeepMind的Torax模拟器 : Google DeepMind的Fusion团队开源了Torax，一个快速且可微分的托卡马克模拟器，以加速AI在聚变能量开发中的应用。代码和论文请见此处。

LiveBench: 新的通用实时LLM基准测试 : LiveBench是一个新的通用实时LLM基准测试，解决了现有基准测试的局限性，提供了更全面的评估框架。此项目由@micahgoldblum和@jeremyphoward领导，旨在提高LLM评估的可靠性和稳健性。

Luma AI的Dream Machine发布 : Luma AI发布了Dream Machine，一个AI视频生成器，可以从文本和图像创建视频，现在向公众开放。生成的视频质量备受赞誉，更多详情请见此处。

Apple的LoRA适配器本地模型 : Apple开发了一个使用LoRA适配器的框架，用于在设备上微调模型，通过混合2位和4位配置策略实现高精度。此方法在保持模型质量的同时保留了通用知识，详细信息请见此处。

RecurrentGemma 9B模型发布 : RecurrentGemma 9B模型提供了与Gemma相同的性能，但延迟降低了25%以上，令牌吞吐量更高。基于Griffin架构，可在Transformers中使用，更多信息请见此处。

Suno AI的实时音频输入 : Suno AI现在支持实时音频输入，允许用户上传自己的声音来创作歌曲。此功能在6-60秒的剪辑中效果最佳，详细信息请见此处。

Mixture of Agents框架在AlpacaEval 2.0上取得65.1%的成绩 : Mixture of Agents (MoA)框架利用多个LLM的集体优势，在AlpacaEval 2.0上取得了65.1%的成绩。此框架通过使用前一层的输出来改进响应，增强了语言模型的性能。更多详情请见@Burachenok的推文。

RLOOTrainer在TRL中引入以提高RLHF效率 : RLOOTrainer (REINFORCE Leave One-Out)在TRL中引入，作为一种新的在线RL方法，用于对齐，所需GPU内存更少，收敛速度更快。此方法旨在将“RL”重新带回“RLHF”，详细信息请见@TheZachMueller的推文。

最大化互信息包发布 : 一个用于近似最大化任意两个离散分布之间互信息（MI）的新包已发布。此包实现了高吞吐量、完全安全的语言模型隐写术，详细信息请见@polynoamial的推文。

Chat with MLX 0.2 for Apple Silicon Mac : Chat with MLX 0.2发布，提供了全新的UI/UX、功能齐全的聊天UI以及更好更快的RAG，以增强Apple Silicon Mac上的LLM体验。升级您的AI对话，请访问GitHub链接。

向量数据库和Pinecone API : 向量数据库在AI中用于存储浮点数数组并使用相似性函数进行搜索。一个视频解释了这些数据库的速度以及如何使用Pinecone的API而无需处理服务器，详细信息请见@svpino的推文。

离散扩散模型用于语言和图像建模 : 新的离散扩散模型在语言和像素级图像建模中变得简单且具有竞争力，集成了一个新的变分目标，超越了先前的扩散语言模型。更多信息请见@sedielem的推文。

OpenAI澄清战略云关系 : OpenAI澄清其与微软的战略云关系保持不变。与OCI的合作允许OpenAI在OCI基础设施上使用Azure AI平台进行推理和其他需求，详细信息请见推文。

Stability AI发布Stable Diffusion 3 Medium : Stability AI宣布发布Stable Diffusion 3 Medium的开源权重，这是他们系列中最新和最先进的文本到图像AI模型。此发布标志着生成式AI发展的一个重要里程碑，更多详情请见推文。

HackerNews:

**在《毁灭战士》中使用二叉空间分割有多么天才？** [链接](https://news.miracleplus.com/share_link/29771)：这篇文章讨论了在经典第一人称射击游戏《毁灭战士》中创新使用二叉空间分割（BSP）。讨论亮点： - **历史背景和研究** ：文章强调了约翰·卡马克通过阅读研究论文的方式，这在计算机科学领域尤其是一种超能力，因为历史研究往往被低估。**旧论文** 可以提供适合现代硬件能力的解决方案，例如现在适合L1或L2缓存的技术。 - **实际应用** ：旧研究的实际应用示例包括来自1961年的**数值近似** 和用于颜色恒常性的**受限二色反射模型** 。 - **行业趋势** ：行业被批评为**无历史感** ，导致解决方案的重复发明，特别是在操作系统、数据库和语言方面。开源项目往往追求从头解决问题的快感，而不是实现现有的解决方案。 - **ChatGPT的角色** ：ChatGPT被视为快速缩小相关文献范围的工具，尽管其有效性存在争议。有些人发现它在数学公式和优化问题上很有用，而另一些人则认为它在复杂任务上不可靠。 - **游戏开发轶事** ：游戏开发中的示例，如**《古惑狼》的预计算可见性** 和**每顶点动画** ，展示了对技术限制的创新解决方案，强调了在行业中创造性解决问题的重要性。 **AES-GCM和在重用随机数时破解它** [链接](https://news.miracleplus.com/share_link/29786)：这篇文章探讨了在重用随机数时，AES-GCM的安全性如何被完全破坏。讨论亮点： - **重用随机数的风险** ：在AES-GCM中重用随机数会导致严重的安全漏洞。如果攻击者知道明文和密文，他们可以通过将它们异或在一起计算出密钥流。即使只知道密文，使用相同随机数异或两个密文也会揭示明文的异或结果。 - **实际场景** ：重用随机数在VPN、分组通信和没有非易失性存储的设备中可能会出现问题。全盘加密也面临类似的问题，因为每个块偏移的静态IV派生。 - **随机数生成** ：由于随机数大小较小（96位），使用随机随机数会导致许多消息之间的碰撞。推荐使用基于计数器的方法，但由于竞争条件和状态重置，这可能具有挑战性。 - **替代解决方案** ：AES-GCM-SIV是一种抗随机数误用的密码，解决了这些问题，但需要对数据进行两次处理。其他替代方案包括XSalsa20、XChaCha20和AEGIS算法家族，它们提供更大的随机数和更好的性能。 - **实现问题** ：许多实现错误地将随机数称为“IV”（初始化向量），导致混淆。与AES-CBC相比，AES-GCM中重用随机数的后果更为严重。

Discord:

LlamaIndex的多种聊天引擎类型 ：@dmaksimov详细介绍了ChatMode.BEST、ChatMode.CONTEXT、ChatMode.CONDENSE_QUESTION等多种聊天引擎类型，每种类型具有独特功能，如使用代理、检索器或直接利用LLM。

RouterRetriever和查询引擎 ：@patrasq分享了创建RouterRetriever与RetrieverTools并将其集成到RetrieverQueryEngine中的代码片段，用于检索增强生成（RAG）系统中的推理。

混合Qdrant数据库查询参数 ：@LLMomar2108讨论了在使用稀疏和密集向量查询混合Qdrant数据库时得分较弱的问题，寻求设置similarity_top_k和alpha等查询参数的建议。

Markdown到纯文本转换 ：@mewtoo遇到存储在向量数据库中的文档的Markdown格式问题，解决方案包括使用BeautifulSoup 将Markdown转换为纯文本，参考StackOverflow链接。

使用Mistral微调AI模型 ：@andysingal分享了Medium文章，介绍了如何使用Mistral 微调预训练模型以提高性能并减少开发时间，涵盖了库安装、数据准备和使用WandbIntegration 进行监控的步骤。

稳定扩散模型的量化 ：@welltoobado提到使用TensorRT 8-bit量化 和OpenVINO量化 方法在低VRAM上运行稳定扩散模型。

Rust用于NLP ：@osanseviero分享了rust-bert，这是一个Rust原生库，支持翻译、摘要和问答等任务，使用多线程分词和GPU推理。

SimCLR PyTorch权重在Hugging Face Hub上 ：@sauravmaheshkar将SimCLRv1 和SimCLRv2 ImageNet-1k权重转换为PyTorch并上传到Hugging Face Hub。SimCLRv1权重和SimCLRv2权重。

Cohere Rerank端点用于多语言搜索 ：Cohere的Rerank端点通过一行代码提升100多种语言的搜索质量，集成现有的基于关键字的搜索系统（如Elasticsearch、OpenSearch、Solr），无需更改基础设施。

Rerank性能评估 ：Cohere的Rerank显著提高了搜索质量，在MIRACL、Natural Questions和TREC-Deep Learning等数据集上平均Accuracy@3 得分为71.6%，优于词法搜索和基于嵌入的语义搜索。

多方面嵌入的潜力 ：@advo_kat对即将推出的多方面嵌入模型表示兴趣，强调其在分类不同类别和时间方面的独特能力，这在其他嵌入中并不常见。

Llamafile JSON Schema到语法 ：@crossproduct解释了通过调用json_schema生成语法并消费该语法的过程。

ggml_cuda.so和ggml_rocm.so的打包 ：@cjpais询问了将这些文件打包到llamafile发布中的方法，特别是是否使用zipalign，并表达了对cosmocc和二进制打包的困惑。

使用symlinks进行高效工作流管理 ：@torcello和@reyartage讨论了使用symlinks 在多个设置（如A1111, Vladmandic, ComfyUI, ComfyUI_Portable, Swarm ）之间共享文件夹，以最小化重新下载并简化更新。

LM Studio模型兼容性 ：@heyitsyorkie确认LM Studio 仅支持具有GGUF 扩展名的模型，不包括safetensors 和图像生成模型 。

GPT-4与GPT-4o分词器效率 ：@deathmax指出GPT-4的分词器(cl100k_base) 有10万个词汇，而GPT-4o的分词器(o200k_base) 有20万个词汇，使其在编码不常见词汇时更高效。来源

大型模型的成本效率 ：@fry69_61685提到WizardLM-2 8x22B 的成本效益为每百万个token $$0.65，建议高成本模型如每百万个token超$$10的模型价格过高，最佳质量与成本比约为每百万个token $1.25，如Claude-3-haiku 。

自托管与提供商成本 ：@sao10k和@fry69_61685讨论了自托管模型的可行性，指出除非在硬件上有显著的沉没成本，否则自托管通常更昂贵。对于批量推理，租用如2x A100s 的GPU每小时$4可能是一个可行的选择，但持续使用成本高。

苹果的AI系统架构 ：苹果的本地模型是一个3B参数SLM ，使用适配器实现特定功能，类似于扩散模型。所有在本地或苹果安全云上运行的模型都是苹果的专有模型，而非OpenAI。来源

Stable Diffusion 3 Medium发布 ：Stability AI发布了Stable Diffusion 3 Medium ，一个多模态扩散变压器(MMDiT) 文本到图像模型，具有改进的图像质量和资源效率，使用三个固定的预训练文本编码器（OpenCLIP-ViT/G, CLIP-ViT/L, T5-xxl），并在非商业研究许可下提供。模型详情

Anthropic的Transformer Lens ：@dr13x3实验了Anthropic的Transformer Lens ，用于调试推理期间的模型注意力，建议其接近解决幻觉问题，一个神经元可以显著影响未见文本生成。

Mojo编程语言概述 ：Mojo 是Python的超集，利用MLIR 进行深度优化，适用于从操作系统到企业Web应用的广泛领域。更多详情

指针到UInt转换在Mojo中 ：@sa_code和@leandrolcampos讨论了在Mojo中将指针转换为UInt，解决方案是UInt64(int(ptr))，成功实现于拉取请求。

Alexa的错失机会 ：Mihail Eric的帖子强调了Alexa 在对话系统中的领先地位未能保持，特别是在OpenAI的GPT-4 设定了新的多模态对话体验标准后。

AI生成音乐 ：Rick Beato的YouTube视频讨论了使用Udio 程序在AI生成音乐方面的进展，强调了AI创造逼真音乐的能力及其绕过人类作曲家的潜力。

新的AI讲座 ：Hwchung在斯坦福CS 25的讲座强调了AI发展的快速步伐和理解这些变化的重要性，而不仅仅是跟上最新的进展。

HuggingFace & Github:

人工智能与技术创新

B&W Manga Block 项目 是 Hugging Face 上的一个模型，专门用于创建粗线条的肖像插图 。该模型在单色和简单的提示下效果最佳，权重以 Safetensors 格式提供，用户可以从“文件和版本”选项卡中下载权重。对于数字艺术爱好者，尤其是漫画风格插图的爱好者，这个模型能够轻松生成特定漫画美学的艺术作品。
Stable Diffusion 3 Medium 是 Stability AI 开发的一种多模态扩散变压器（MMDiT）文本到图像模型。该模型适用于生成艺术品、设计和其他艺术过程，通过三个高级预训练文本编码器提升稳健性能。尽管不适用于生成真实人物或事件的内容，但它在图像质量和复杂提示理解方面表现优异，并且免费向非商业用途开放使用。
Qwen2 系列模型，包括 Qwen2-57B-A14B-Instruct，是基于 Transformer 架构的大型语言模型，支持最多 65,536 个标记的上下文长度 。Qwen2 在多个基准测试中表现出色，超越了许多开源和专有模型。该模型通过大量数据预训练，并进行了有监督微调和直接优化，特别适合处理超长文本输入。

总结

这些模型展示了人工智能在数字艺术、文本生成和语言理解中的最新进展。B&W Manga Block 通过简化的提示轻松生成漫画风插图，而 Stable Diffusion 3 Medium 提供高质量的文本到图像转换能力，特别是在艺术创作领域。Qwen2 则在语言模型的上下文处理能力方面取得了突破，为高级语言理解和生成提供了强大支持。这些工具不仅拓展了创意和教育应用的边界，也为研究和开发者提供了新的资源。

来源：https://news.miracleplus.com/share_link/29879

巴黎开源人工智能开发者聚会 · Luma

如果您是一位对开源项目充满热情的AI爱好者或开发者，那么由Docker和Friends主办的巴黎开源AI开发者聚会是您不容错过的活动。这次聚会定于6月20日星期四在巴黎的Station F举行，承诺为您带来一晚上的精彩闪电演示，来自知名实体如Hugging Face、Red Hat和Docker等。这是一个与同行建立联系并第一时间了解AI技术最新进展的独特机会。此外，与会者有机会展示他们自己的项目，使之成为那些希望分享和获取AI开发见解的人的理想平台。在以部署生成式AI模型为中心的聚会后派对上，这个活动专为那些活跃在AI社区中重视合作和创新的人而设计。无论您是来学习、分享还是简单地与志同道合的人建立联系，这次聚会都将成为开源AI爱好者的知识和灵感中心。

来源：https://lu.ma/docker-paris

当"狂飙"的大模型撞上推荐系统

对内容没有发现任何有趣的东西。

来源：https://mp.weixin.qq.com/s/hQ5MYFxdKA4dgXetFEc_Bg

实现大模型自由！潞晨训推一体机，助力算力高效利用

实现大模型自由！潞晨训推一体机，助力算力高效利用。AI技术在商业应用中的进展迅速，需要强大的计算资源。许多公司在有效利用计算资源实施AI时遇到困难。集成AI训练和推理机器是中国计算行业的新趋势。潞晨科技开发了一种名为"训推一体机"的训练和推理机器，克服了传统机器的局限性。该机器采用高性能硬件，包括8张Nvidia H20卡，每张卡有96GB内存。潞晨科技通过Colossal-AI加速系统优化了机器性能，效率提高了21%。该机器提供定制选项，支持多种训练和推理加速框架。潞晨科技提供易于使用的软件界面Colossal LLM Studio，用于模型训练和微调。该机器可以集成各种开源模型，提供无缝的用户体验。潞晨科技还提供Colossal Reader用于文档理解和Open-Sora模型用于视频生成。该机器可供购买，为数据隐私和本地部署提供了强有力的支持。

来源：https://mp.weixin.qq.com/s/kVF2fOR8_i7EVoUrt3vBIg

再谈苹果AI

这篇文章深入探讨了苹果的人工智能战略，特别关注了Siri在各种应用程序中的整合能力以及对上下文和屏幕内容的理解。它强调了苹果由硬件、软件和人工智能模型组成的统一生态系统所带来的独特优势。特别值得注意的是，文章指出，先进的苹果智能功能仅适用于具有特定芯片的设备，暗示了一种鼓励用户升级到新型号的策略。讨论还涉及了由计算能力改进驱动的iPhone升级的潜力，以及对可折叠型号的期待。对于投资者和科技爱好者来说，文章重点介绍了“果链”中的关键公司，这些公司对苹果的产品创新至关重要。这篇内容对于那些关心苹果人工智能能力的未来和塑造消费者技术升级的战略决策的人来说尤为重要。

来源：https://mp.weixin.qq.com/s/pZeoVk-ezf7jHtftWWm3cA

小互

俄罗斯科技巨头Yandex 开源了一个LLM培训工具可节省高达20%的 GPU 资源

来源：https://xiaohu.ai/p/9618

吴恩达提出的基于反思代理工作流的机器翻译方法

来源：https://xiaohu.ai/p/9611

Musashi：东京大学开发并训练了一款可以自己开车的机器人

来源：https://xiaohu.ai/p/9600

Uizard 发布 Autodesigner 2.0 AI设计引擎只需文字或截图几秒钟内完成网站设计

来源：https://xiaohu.ai/p/9585

Suno发布音频输入功能用户可以使用任何声音随时随地创作歌曲

来源：https://xiaohu.ai/p/9574

宝玉

计算机专业还值得报考吗？

从我二十多年前参加高考以来，每年高考一结束，#计算机专业还值得报考吗# 就一直热门话题，一些人认为计算机发展了这么多年已经饱和，可能面临毕业即失业的风险，而另一些人则认为计算机专业依然是未来的热门专业，就业前景广阔。

来源：https://baoyu.io/blog/career/is-computer-science-still-worth-studying

探索检索和评估相关上下文的挑战 [译]

利用 Ragas, TruLens 和 DeepEval 对一年级阅读理解练习进行上下文相关性评估的案例研究

来源：https://baoyu.io/translations/rag/the-challenges-of-retrieving-and-evaluating-relevant-context-for-rag

最佳论文 [译]

虽然这篇文章的标题称其为“最佳论文”，但实际上并非如此。我的目标是探索一篇真正的最佳论文应具备的特质。

来源：https://baoyu.io/translations/writing/the-best-essay

苹果新推出的设备内及云端服务器基础模型介绍 [译]

在 2024 年全球开发者大会上，我们向大家展示了苹果智能系统，这是一套深度融入 iOS 18、iPadOS 18 及 macOS Sequoia 的个人智能体系。这一系统集成了多个功能强大的生成式 AI，专为处理用户日常需求而设计，能够根据用户当前的活动实时调整。苹果智能中的基础模型经过专门微调，以优化各种用户体验，如文本编写、通知的排序与摘要、为家庭及朋友对话创造有趣的图像，以及简化应用间的交互操作。

来源：https://baoyu.io/translations/apple/introducing-apple-foundation-models

使用大语言模型 (LLMs) 构建产品一年后的经验总结 [译]

现在是使用大语言模型 (LLMs) 构建产品的激动人心的时刻。在过去的一年中，LLMs 的表现已经“足够好”可以应用于现实世界。LLMs 改进的速度，加上社交媒体上的大量演示，将推动预计到 2025 年 AI 投资达到 2000 亿美元。LLMs 的广泛可用性，让每个人，而不仅仅是机器学习工程师和科学家，都能在他们的产品中构建智能。虽然构建 AI 产品的门槛已经降低，但要创建那些不仅仅是演示效果好的产品，仍然充满挑战。

来源：https://baoyu.io/translations/llm/what-we-learned-from-a-year-of-building-with-llms

Github

Codium-ai/cover-agent

CodiumAI Cover-Agent: An AI-Powered Tool for Automated Test Generation and Code Coverage Enhancement! 💻🤖🧪🐞

来源：https://github.com/Codium-ai/cover-agent

openrecall/openrecall

OpenRecall is a fully open-source, privacy-first alternative to proprietary solutions like Microsoft's Windows Recall. With OpenRecall, you can easily access your digital history, enhancing your memory and productivity without compromising your privacy.

来源：https://github.com/openrecall/openrecall