斯坦福的新工具,生物计算,操作系统与AI融合之路

 一支烟花官网:

https://agifun.love

智源社区

斯坦福让“GPU高速运转”的新工具火了,比FlashAttention2更快

西风 发自 凹非寺量子位 | 公众号 QbitAIAI算力资源越发紧张的当下,斯坦福新研究将GPU运行效率再提升一波——内核只有100行代码,让H100比使用FlashAttention-2,性能还要提升30%。怎么做到的?研究人员从“硬件实际需要什么?如何满足这些需求?”这两个问题出发,设计了 一个嵌入式CUDA DSL工具,名为ThunderKittens(暂且译为雷猫)。雷猫可简化AI内核的编写,同时充分利用底层硬件能力。具体来说,雷猫的主要抽象是寄存器和共享内存中的小型张量块(tile),和目前GPU中对小矩阵乘法的优化相匹配。通过操作这些tile,开发者可相对简单地编写代码,充分利用...

来源:http://mp.weixin.qq.com/s?__biz=MzIzNjc1NzUzMw==&mid=2247732344&idx=4&sn=9078f4c1c1efd2f74c6189592c7554df&chksm=e9c48c3e0b94275860108ab27c6ff791f6b229b3ce712568192264b24a55c6d0c387021ba9c7&scene=0&xtrack=1#rd

Datawhale出品:《GLM-4 大模型部署微调教程》发布!

Datawhale开源开源贡献:Datawhale self-llm团队前言就在昨天,智谱 AI 发布了最新开源模型 GLM4,通过 10T 高质量多语言数据与更先进的训练技术,达到了更加出色的生成效果。在仅有 9B 参数的前提下,在中文能力、长文本能力以及工具调用等任务中达到了更加出色的效果。更多测评细节详见:GLM-4最新开源版本硬核测评!Datawhale成员万字测评(一)开发者视角看GLM-4-9B!Datawhale成员万字测评(二)教程介绍秉承开源贡献的宗旨,Datawhale团队成员在模型发布 12 小时之内,为 编写了GLM-4整套教学流程,...

来源:http://mp.weixin.qq.com/s?__biz=MzIyNjM2MzQyNg==&mid=2247666091&idx=1&sn=867322bf37977c81cf38c1da7276b8ed&chksm=e99b35e4d8b63371b378829effcfbd0472fc61cce61f701ba0adeb4b08c46d5a40f2c4f1fa82&scene=0&xtrack=1#rd

一文解读中美地缘科技竞争:现状、趋势与应对策略【AI战略知识库】

《中国评论》CHINA REVIEW向左滑动查看更多 >>自2024年2月28日拜登签署《禁止受注国家获取美国人大量敏感个人数据和美国政府相关数据》以来,美国在跨境数据流动方面频繁对华出招:3月1日,美商务部宣布对内嵌信息通信技术或服务的智能网联汽车启动国家安全审查;3月5日,美国国会众议院“美中战略争特别委员会”公布的一项立法提案要求中国公司字节跳动在 165 天之内剥离旗下短视频应用程序TikTok,而这并非 TikTok 第一次遭到美方施压;3月6日,有利于美方在生物制造领域对华产品:企业与技术进行打压的《生物安全法案》以 11:1的投票结果获得通过。议案中,华大基因、华...

来源:http://mp.weixin.qq.com/s?__biz=MzU4MzYxOTIwOQ==&mid=2247510279&idx=1&sn=1f65856a00b7463e9c9de555c3e9287f&chksm=fca6eae5be34e198dbfeac30b3609757ca5516c37c345536c172645210b07d643c5ed74c787f&scene=0&xtrack=1#rd

生物计算:超越图灵模型的细胞计算机

导语认为只有硅基机器才能进行计算是一个常见误解。事实上,使用不同形式的物质,如生命物质,也可以实现其他形式的计算。利用理论计算机科学和合成生物学之间的协同效应,创建强大的细胞计算机(cellular computer),可以超越图灵计算。研究领域:生物计算,细胞计算机,算法复杂性,合成生物学,复杂系统Ángel Goñi-Moreno| 作者何安夏| 译者原文题目:Biocomputation: Moving Beyond Turing with Living Cellular Computers原文链接:https://cacm.acm.org/research/bi...

来源:http://mp.weixin.qq.com/s?__biz=MzIzMjQyNzQ5MA==&mid=2247692116&idx=1&sn=eccc51e92614d6c8fe515c933079427e&chksm=e94ec22b686e1c8b399cc1625cfc9661b82f16a267d95f2bfb7467e838ace556bb6d426354f7&scene=0&xtrack=1#rd

黎曼猜想突破作者首次公开讲解,陶哲轩送上总结

内容来自:机器之心满满一黑板的「天书」,会是「猜想界皇冠」破解的开始吗?昨天,有关试证黎曼猜想的新研究又一次引爆了数学圈。MIT 数学教授 Larry Guth 和牛津大学数学研究所教授、2022 菲尔兹奖得主 James Maynard 撰写论文《New large value estimates for Dirichlet polynomials》,首次对数学家 Albert Ingham 在 1940 年左右关于黎曼 ζ 函数零点(以及更广泛地控制各种 Dirichlet 级数的大值)的经典界限做出了实质性改进。论文地址:https://arxiv.org/pdf/2405.20552对...

来源:http://mp.weixin.qq.com/s?__biz=Mzg4MDE3OTA5NA==&mid=2247586975&idx=1&sn=1e7a0e5ffd46ce2fc378a7a7e0678c38&chksm=ce17a6168f1a501e3c43bf6ee0ecd721c6fca9cdb5287fba4b9b7aa4320dc6fb1c2292bae1ec&scene=0&xtrack=1#rd

InfoQ

在这里,一起见证 AI 时代的数智化跃迁

InfoQ 中国成立17周年,继续与各位并肩前行。

来源:https://www.infoq.cn/article/pW4B4xse6Nh8MDTDhIKQ

国内科技企业和机构发力AI研发,50余篇论文入选顶会ICML2024

2024年国际机器学习大会(ICML2024)共收到9473篇论文投稿,最终录用了2609篇,接收率为27.5%。

来源:https://www.infoq.cn/article/Z4mcTK6XujWIoHbwJE6m

“都是调用的GPT?”ChatGPT、Claude、Perplexity、Gemini 同时都宕机了

“为什么三年之前就在到处宣扬的快速数字化转型,直到今天也无法实现站点的高效规模伸缩?”

来源:https://www.infoq.cn/article/rNDOUPUd2fCg32ykpgU1

抖音Android端图片优化实践

本文介绍抖音Android端通过使用BDFresco图片框架进行图片优化的实践、经验和价值,分享问题和解决策略,旨在为同行提供参考。

来源:https://www.infoq.cn/article/JDQ1rO5gAACNvZZU2SFi

操作系统与AI融合之路再进一步!首个AI原生开源操作系统,openEuler 24.03 LTS正式发布

本次发布会汇聚操作系统产业界顶尖力量,共探openEuler社区技术、生态、国际化发展。

来源:https://www.infoq.cn/article/cWVQffwgQdIg8xUmgDdF

ShowMeAI社区

打造AI爆款应用<新>黄金法则;盘点20款最流行AI搜索工具;ChatGPT对在线知识社区的影响;100万用户教会我的5个教训 | ShowMeAI日报

  1. 盘点 20 款最流行的AI搜索应用,你最喜欢哪几个? [图片] 国内秘塔AI搜索 https://metaso.cn/ 好用,免费,国内 Top 水平 天工AI (昆仑万维) https://www.tiangong.cn/ 好用,免费,技术实力 Top 且快速升级中 简单搜索 App (百度) https://secr.baidu.com/ 只有手机版,规规矩矩的一款AI增强搜索应用 360 AI 搜索 https://so.360.com 最近数据增长蛮快的,综合体验比较流畅 澜舟AI搜索 https://ai-search.langboat.com 中规中矩 BrainStorm …

来源:https://zhuanlan.zhihu.com/p/698345703

又一款爆火AI游戏诞生!《换你来当爹》做对了什么?| ShowMeAI体验报告

[图片] 社区里几百人玩一款AI游戏的场面,值得记录一下! 大模型游戏化极度看重〖有趣〗程度。可有趣的灵魂那么难得,以至于只要一眼,我们就在产品的海洋里发现了 ta 。1. 有趣的灵魂在发疯疯疯 《换你来当爹》是一款全员发疯的AI游戏,主线任务是任意设定一个角色,然后把他培养成「大孝子」!灵感估计来源于男生大学宿舍里互相喊「爸爸」的传统?看到设定的一瞬间,会心一笑 游戏最初在即刻平台出圈,随后传回微信社群,并成功激发起…

来源:https://zhuanlan.zhihu.com/p/697856247

朱啸虎:AI应用明年肯定大爆发;第3款爆火AI游戏出现了;AI应用定价策略「不能说的秘密」;人类数据不够用了怎么办 | ShowMeAI日报

日报&周刊合集 | 生产力工具与行业应用大全 | 点赞关注评论拜托啦!1. 换你来当爹:国内第3款爆火出圈的AI游戏应用,hhh 太搞笑了 [图片] 周末的时候,社群里伙伴们开始玩一款「 换你来当爹」的AI游戏 进入游戏界面后,输入名字,系统随机生成孩子的「出生设定」。 然后恭喜你!可以开始当爹了!! 好大儿的培养过程,伴随着各种糟心的意外,然后把难题摆在你面前。 哎呀呀!逆子… 这时,你可以在系统给定的两个选项中选择一个,当然也…

来源:https://zhuanlan.zhihu.com/p/697655366

上海交通大学《动手学大模型》编程实战课;提示工程大赛冠军经验分享;AI Agent最新行业地图(3份);人类与ChatGPT恋爱行为指南;提升AI产品留存率的7个技巧 | ShowMeAI日报

日报&周刊合集 | 生产力工具与行业应用大全 | 点赞关注评论拜托啦! 1. 终于来了!OpenAI 周一官网直播,ChatGPT 和 GPT-4 上新啦! [图片] Sam Altman 和 OpenAI 近期一直在造势,演讲、访谈、小更新等动作不断。终于!官方推特宣布,将于 美西时间5月13日上午10点 (⏰ 北京时间5月14日凌晨1点) 在 OpenAI 官网进行直播,演示 ChatGPT 和 GPT-4 的更新。 到底会更新什么呢?!!各方还在猜来猜去。@indigo 的猜测帖 传播度很广,精选…

来源:https://zhuanlan.zhihu.com/p/697448133

ShowMeAI | 全球最有前途的100家AI公司,中国2家上榜;混合专家模型MoE详解;人大最新《大语言模型》电子书开放下载;斯坦福最新AI指数报告

日报&周刊合集 | 生产力工具与行业应用大全 | 点赞关注评论拜托啦! 1. CB Insights 发布「AI 100 2024」榜单,评选出全球最有前途的 100 家人工智能公司 [图片] CB Insights 是全球知名的市场情报分析机构,以其深入的数据分析、前瞻性的行业洞察而著称。CB Insights 最近发布了「AI 100 2024 」榜单,综合考虑了公司交易活动、行业合作伙伴关系、团队实力、投资者实力、专利活动、专项评分等数据维度,并结合 CB Insights 调研和访谈,…

来源:https://zhuanlan.zhihu.com/p/696949266

Aminer.cn

大型语言模型的不确定性表达:忠实度与准确性

大模型(LLM)是一种人工智能模型,旨在理解和生成人类语言。

来源:https://www.aminer.cn/research_report/665fc8bac028d8419b0a4168

清华大学唐杰:大模型与超级智能

本文探讨了大模型的发展历程,介绍了作者团队研发的GLM-4大模型,并针对AGI研究面临的挑战对AGI未来发展提出了一些思考。

来源:https://www.aminer.cn/research_report/665fc671c028d8419b0a3f77

训练数据匮乏:LLM在正式定理证明中的挑战

别担心,AMiner AI会帮助你高效检索和阅读文献!

来源:https://www.aminer.cn/research_report/665d2bd6c028d8419b08ba06

GPU内存瓶颈:大规模语言模型推理能力的制约因素

想把握最新的科技进展和研究成果,却发现自己的阅读速度根本赶不上文献产出的速度?

来源:https://www.aminer.cn/research_report/665555cec028d8419b0438c5

虚构事实的担忧:大型语言模型的新知识处理能力

AMiner AI,一款集发现论文、分析论文、理解论文、写作论文于一体的科研小助手。它会帮助你更加游刃有余地穿梭在学术海洋中,让科研变得更加有趣和高效!

来源:https://www.aminer.cn/research_report/664c3a53707801418e87e415

arXiv.org

Proactive Detection of Voice Cloning with Localized Watermarking

In the rapidly evolving field of speech generative models, there is a pressing need to ensure audio authenticity against the risks of voice cloning. We present AudioSeal, the first audio watermarking technique designed specifically for localized detection of AI-generated speech. AudioSeal employs a generator/detector architecture trained jointly with a localization loss to enable localized watermark detection up to the sample level, and a novel perceptual loss inspired by auditory masking, that enables AudioSeal to achieve better imperceptibility. AudioSeal achieves state-of-the-art performance in terms of robustness to real life audio manipulations and imperceptibility based on automatic and human evaluation metrics. Additionally, AudioSeal is designed with a fast, single-pass detector, that significantly surpasses existing models in speed - achieving detection up to two orders of magnitude faster, making it ideal for large-scale and real-time applications.

来源:http://arxiv.org/abs/2401.17264v2

Generative AI-in-the-loop: Integrating LLMs and GPTs into the Next

Generation Networks In recent years, machine learning (ML) techniques have created numerous opportunities for intelligent mobile networks and have accelerated the automation of network operations. However, complex network tasks may involve variables and considerations even beyond the capacity of traditional ML algorithms. On the other hand, large language models (LLMs) have recently emerged, demonstrating near-human-level performance in cognitive tasks across various fields. However, they remain prone to hallucinations and often lack common sense in basic tasks. Therefore, they are regarded as assistive tools for humans. In this work, we propose the concept of "generative AI-in-the-loop" and utilize the semantic understanding, context awareness, and reasoning abilities of LLMs to assist humans in handling complex or unforeseen situations in mobile communication networks. We believe that combining LLMs and ML models allows both to leverage their respective capabilities and achieve better results than either model alone. To support this idea, we begin by analyzing the capabilities of LLMs and compare them with traditional ML algorithms. We then explore potential LLM-based applications in line with the requirements of next-generation networks. We further examine the integration of ML and LLMs, discussing how they can be used together in mobile networks. Unlike existing studies, our research emphasizes the fusion of LLMs with traditional ML-driven next-generation networks and serves as a comprehensive refinement of existing surveys. Finally, we provide a case study to enhance ML-based network intrusion detection with synthesized data generated by LLMs. Our case study further demonstrates the advantages of our proposed idea.

来源:http://arxiv.org/abs/2406.04276v1

Open-Endedness is Essential for Artificial Superhuman Intelligence

In recent years there has been a tremendous surge in the general capabilities of AI systems, mainly fuelled by training foundation models on internetscale data. Nevertheless, the creation of openended, ever self-improving AI remains elusive. In this position paper, we argue that the ingredients are now in place to achieve openendedness in AI systems with respect to a human observer. Furthermore, we claim that such open-endedness is an essential property of any artificial superhuman intelligence (ASI). We begin by providing a concrete formal definition of open-endedness through the lens of novelty and learnability. We then illustrate a path towards ASI via open-ended systems built on top of foundation models, capable of making novel, humanrelevant discoveries. We conclude by examining the safety implications of generally-capable openended AI. We expect that open-ended foundation models will prove to be an increasingly fertile and safety-critical area of research in the near future.

来源:http://arxiv.org/abs/2406.04268v1

Quantifying Misalignment Between Agents

Growing concerns about the AI alignment problem have emerged in recent years, with previous work focusing mainly on (1) qualitative descriptions of the alignment problem; (2) attempting to align AI actions with human interests by focusing on value specification and learning; and/or (3) focusing on a single agent or on humanity as a singular unit. Recent work in sociotechnical AI alignment has made some progress in defining alignment inclusively, but the field as a whole still lacks a systematic understanding of how to specify, describe, and analyze misalignment among entities, which may include individual humans, AI agents, and complex compositional entities such as corporations, nation-states, and so forth. Previous work on controversy in computational social science offers a mathematical model of contention among populations (of humans). In this paper, we adapt this contention model to the alignment problem, and show how misalignment can vary depending on the population of agents (human or otherwise) being observed, the domain in question, and the agents' probability-weighted preferences between possible outcomes. Our model departs from value specification approaches and focuses instead on the morass of complex, interlocking, sometimes contradictory goals that agents may have in practice. We apply our model by analyzing several case studies ranging from social media moderation to autonomous vehicle behavior. By applying our model with appropriately representative value data, AI engineers can ensure that their systems learn values maximally aligned with diverse human interests.

来源:http://arxiv.org/abs/2406.04231v1

BEADs: Bias Evaluation Across Domains

Recent improvements in large language models (LLMs) have significantly enhanced natural language processing (NLP) applications. However, these models can also inherit and perpetuate biases from their training data. Addressing this issue is crucial, yet many existing datasets do not offer evaluation across diverse NLP tasks. To tackle this, we introduce the Bias Evaluations Across Domains (BEADs) dataset, designed to support a wide range of NLP tasks, including text classification, bias entity recognition, bias quantification, and benign language generation. BEADs uses AI-driven annotation combined with experts' verification to provide reliable labels. This method overcomes the limitations of existing datasets that typically depend on crowd-sourcing, expert-only annotations with limited bias evaluations, or unverified AI labeling. Our empirical analysis shows that BEADs is effective in detecting and reducing biases across different language models, with smaller models fine-tuned on BEADs often outperforming LLMs in bias classification tasks. However, these models may still exhibit biases towards certain demographics. Fine-tuning LLMs with our benign language data also reduces biases while preserving the models' knowledge. Our findings highlight the importance of comprehensive bias evaluation and the potential of targeted fine-tuning for reducing the bias of LLMs. We are making BEADs publicly available at https://huggingface.co/datasets/shainar/BEAD Warning: This paper contains examples that may be considered offensive.

来源:http://arxiv.org/abs/2406.04220v1

齐思

齐思头条2024/06/07「SpaceX Starship第四次飞行测试成功,Jina-CLIP v1发布,Qwen2系列模型亮相,LangChain AI SDK改进,GLM 4模型发布」

Twitter:

SpaceX的Starship第四次飞行测试 :SpaceX成功完成了Starship的第四次飞行测试,展示了返回和重复使用的关键能力,包括受控再入和在印度洋的溅落。测试旨在收集热保护和飞行器控制在高超音速下降期间的数据。更多细节请见SpaceX更新

Jina-CLIP v1发布 :JinaAI发布了Jina-CLIP v1,这是一种先进的多模态嵌入模型,在文本-图像检索任务中超越了OpenAI CLIP。该模型支持文本-文本、文本-图像、图像-文本和图像-图像检索,并兼容Transformers.js和WebGPU加速。更多详情请见公告发布说明

Qwen2模型系列发布 :Qwen2系列模型,包括从0.5B到72B参数的模型,已发布,具有在编码和数学方面的SOTA性能,并支持最长128K tokens的上下文长度。更多细节请见huybery的推文arankomatsuzaki的推文Clement Delangue的推文

LangChain AI SDK改进 :LangChain增强了其AI SDK支持,推出了LangChainAdapter.toAIStream,将StringOutputParser流转换为useChat和useCompletion可消费的流。此更新在v3.1.26+版本中可用。更多信息请见更新公告更多细节

GLM 4模型发布 :清华大学发布了GLM 4,这是一种具有9B参数的强大语言模型,支持多种语言和功能,并在多个方面超越了竞争对手如Mistra。该模型可用于商业用途,标志着AI能力的重大进步。更多信息请见这里

MixEval用于LLM评估 :NiJinjie介绍了MixEval,这是一种新的LLM评估范式,通过结合经典基准和真实用户查询来提供准确、快速和成本效益高的模型排名,解决了当前评估方法中的偏见问题。详细方法和动态排行榜请见这里

Instructor库生成结构化JSON输出 :Instructor库通过允许使用Python类型注解将LLM输出映射到结构化数据,解决了生成结构化JSON输出的挑战。它作为OpenAI Python SDK的轻量级补丁,添加了response_model参数以集成Pydantic模型。此解决方案兼容Anyscale、Together、Ollama、Groq和llama-cpp-python等提供商。更多信息请见这里

Epoch AI研究数据耗尽 :Epoch AI Research发布了一篇新论文,估计在当前使用率下,我们何时可能耗尽互联网上的所有文本数据。论文讨论了使用包含数十万亿词语的数据集的影响,详情请见这里

Google AI的医疗影像模型框架 :Google AI引入了一个理解医疗影像模型的框架,利用生成式AI和专家审查来识别和解释与模型预测相关的视觉线索。此开发旨在增强AI在医疗保健中的应用,更多信息请见此推文

Microsoft Copilot+ Recall功能安全问题 :GossiTheDog强调了Microsoft Copilot+ Recall功能的安全问题,展示了潜在的漏洞和以最小努力外流数据的能力。据报道,该功能的开发被隐藏以避免审查,详情请见此推文

LLM Bullshit Knife :LLM Bullshit Knife是一种概念工具,旨在通过结合RAG、Agentic、CoT、FewShot、PromptEng和Prompt Optimizer等技术来增强大型语言模型的有效性。此方法旨在切除无关或误导性信息,详情请见HamelHusain的推文MattShumer的推文TheZachMueller的推文

Flash Diffusion开源项目 :Flash Diffusion项目由Jasper AI和Clipdrop推出,是一种稳健且高效的扩散模型蒸馏方法。此开源项目旨在增强扩散模型的能力,详情请见此推文

Higgs-Llama-3-70B模型发布 :Higgs-Llama-3-70B模型是Higgs系列LLM的一部分,专为角色扮演而设计,从Llama-3-base后训练,并排除基准数据的微调。详情请见boson_ai的推文

新文本到图像模型竞技场 :一个新的竞技场比较了开源和闭源的文本到图像模型,显示开源模型正在赶上。用户可以获得个性化的排行榜,以查看他们更喜欢哪些图像生成模型。更多细节请见clefourrier的推文

StandWithCrypto运动 :StandWithCrypto运动即将跨越100万支持者,突显了加密选民群体的日益影响力。此里程碑在brian_armstrong的推文alexisohanian的推文中讨论。

NotebookLM AI研究助手扩展 :Google将其NotebookLM AI研究和写作助手的可用性扩展到200多个新国家和地区。更新包括运行Gemini 1.5 Pro,添加Google Slides和网页URL作为来源,以及内联引用和图像理解等新功能,详情请见@fchollet的推文@JeffDean的推文

LlamaParse和知识图谱集成 :LlamaIndex引入了结合LlamaParse和知识图谱的新集成,以增强RAG管道。此集成允许从解析数据构建知识图谱,并构建代理以回答复杂查询,详情请见@jerryjliu0的推文和后续推文这里

Nomic Embed Vision v1.5发布 :Nomic AI发布了Embed Vision v1.5,可在网页浏览器中运行,用于图像分类任务。此更新由@cto_junior的推文@huggingface的推文展示其在Hugging Face空间中的能力。

Stable Audio Open发布 :Stability AI推出了Stable Audio Open,一种基于文本提示生成音频的新工具。用户可以使用诸如“在处理过的工作室中播放的摇滚节拍”等提示进行测试,详情请见@julien_c的推文

Browserbase AI网页浏览工具 :Browserbase宣布其推出,提供帮助AI应用程序浏览网页的工具。公司已筹集650万美元资金,并现向开发者开放注册,详情请见@AlexReibman的推文@rez0__的推文

"Taps the Sign"表情包走红 :包含“taps the sign”短语的表情包在Twitter上获得了显著关注,多位用户如@BasedBeffJezos@jonst0kes@Meaningness@togelius分享了此表情包。表情包的流行显而易见,获得了大量转发和互动。

Stable Audio Open by StabilityAI :StabilityAI推出了Stable Audio Open,一种新的音频生成模型,能够以44.1KHz的立体声生成最长47秒的音频。该模型使用T5文本嵌入和基于Transformers的扩散模型(DiT),在Freesound和Free Music Archive等广泛数据集上训练。更多细节请见@huggingface的推文@reach_vb的推文

HippoRAG:LLM的高效长期记忆 :HippoRAG框架受人类记忆的海马索引理论启发,显著改善了将新信息整合到大型语言模型中的能力,而不会导致灾难性遗忘。在多跳QA基准上,其性能比最先进的RAG方法高出20%。此开发由@rohanpaul_ai的推文详细介绍。

间接提示注入事件 :在LLM的官方文档中意外包含了间接提示注入,导致RAG演示响应为“机智的沙鼠”。此有趣事件由@simonw@zacharynado分享,突显了提示注入在AI模型中的意外后果。

NEAR Protocol讨论最新AI研究 :NEAR Protocol的白板会议由Illia和Alex讨论了最新的AI研究主题,并解读了重点领域,提供了他们正在进行的项目和进展的见解。更多细节请见他们的推文

HackerNews:

高海上的启发式方法:货船的数学优化 链接: 本文讨论了应用数学优化技术来提高货船运营效率。

讨论要点:

  • 码头操作的复杂性: 每个码头的操作方式不同,即使在同一家公司内部,这使得优化解决方案难以扩展。一个码头的解决方案80% 通常需要为另一个码头重新构建。

  • 未记录的约束: 工业优化因人为约束 (如工会规则和未记录的操作实践)而变得复杂。解决方案需要能够适应计划外的变化,而不仅仅是最优的。

  • 实际节省: 优化的实际实施可以带来显著的节省。一个例子是通过新的优化引擎和物理过程实现了每年3亿美元的节省

  • 可解释性和信任: 最优算法必须是可解释的,以获得用户的信任。员工需要理解为什么生成了某个解决方案,特别是在工作安全受到关注时。

  • 发票错误: 5-10%的物流发票 是错误的,通常是由于复杂的费率结构和边缘情况。优化工作有时会被优先处理这些低垂的果实所取代。

美国租金飙升是否由一家公司引起? 链接: 本文讨论了对RealPage的指控,称其通过软件操纵租赁市场,导致数百万美国人租金上涨。

讨论要点:

  • 市场操纵和合谋: RealPage的软件被指控使大房东之间的价格操纵 成为可能,导致租金上涨。这被视为一种市场失灵 ,价格不再由传统的供需动态决定。

  • 供需动态: 虽然房价通常由供需决定 ,但住房需求的非弹性 意味着合谋可以显著影响特定市场范围内的价格。

  • 地方政策的影响: NIMBY(不在我后院)政策 被认为是住房危机的一个重要因素,因为它们阻止了新房的建设,从而限制了供应并使大房东能够设定更高的价格。

  • YIMBY(在我后院)政策: 倡导者认为YIMBY政策 可以通过允许更快地建造新公寓来缓解住房危机,从而增加供应并减少大房东设定高价的能力。

  • 垄断和市场力量: 即使没有完全的垄断,使用RealPage软件的大房东 也可以通过在市场上协调定价策略,类似于垄断行为,对租金价格施加显著控制。

Discord:

高VRAM设置的AI模型推荐 :@kit_kats 询问适用于2个80GB VRAM GPU、32个CPU核心和256GB RAM 的AI模型,@jedd1 推荐使用 LLM Extractum 过滤模型的大小和质量。

高效内存管理 :@punkgeneral 强调在8GB RAM系统上使用 --no-mmap 选项的好处,防止加载8B模型时的RAM峰值和系统冻结,基准测试表明 --no-mmap 在生成token时可能更快。

Qualcomm的Snapdragon X Elite :讨论了Nuvia Phoenix CPU架构 及其在性能和效率上与苹果M芯片竞争的潜力,详细技术细节在 YouTube视频 中。

OpenRouter与Cohere API温度设置差异 :@guestavius 和 @lazydogp 指出 OpenRouter 允许将温度设置超过1,而 Cohere API 限制为1,质疑OpenRouter的实现方式。

多用户和代理方法 :@razodactyl 和 @xvarunx 强调 Rhea系统 在处理多用户交互方面的能力,Coral 可以在Rhea平台上运行,展示其独特功能的演示被建议。

捕捉React中代理的思维过程 :@warpwing 询问如何打印React代理链的每个状态,@meor.amer 提到使用 return_intermediate_stepsLangChain文档 中作为潜在解决方案。

Artisan默认使用Ultra :@mcmonkey 宣布 Artisan 现在默认使用 Ultra ,包括最新的实验架构,目前是 SD3-8B ,用户可以在 /dream 命令中通过指定 Model 参数选择 regular SD3Core 模型。

Stable Audio Open 1.0采样器在ComfyUI中 :发布了一个新的 ComfyUI节点,需要 7GB VRAMHugging Face token 来加载模型,功能包括音频生成、原始字节输出和保存音频到文件。

Stable Audio Open 1.0模型细节 :该模型在 HuggingFace 上可用,从文本提示生成最多47秒的立体声音频,使用自动编码器、基于T5的文本嵌入和基于变压器的扩散模型。

SimpleTuner v0.9.6.2发布 :新版本包括 Mixture-of-Experts 分步训练支持和加速训练的教程,关键更新包括DeepSpeed修复、Parquet后端修复、JSON/JSONL支持和小错误修复。发布说明Mixture-of-Experts教程

Note机器学习库 :基于TensorFlow的新库 Note 简化了神经网络的构建和训练,支持PyTorch和Keras风格,并兼容TensorFlow的API,包含Llama2、CLIP、ViT、ConvNeXt和SwiftFormer等模型。GitHub仓库文档

EfficientNet V2用于分类 :@pendresen 建议使用 EfficientNet V2 small 进行分类任务,数据集约4000个样本,强调包括相似但非目标类以减少误报。

Transformers与YOLO和EfficientNet的比较 :@pendresen 分享了 Transformers 在计算机视觉中处理数据质量问题的能力,但训练时间比 YOLOEfficientNet V2 高出10-100倍。

CUDA和cuDNN兼容性 :@eriks.0595 澄清 cuBLAS 有C接口,而 cuDNNcutlass 内核需要 C++17 进行未来开发。

GPU CI管道 :@ross_wheeler_56532 和 @eriks.0595 讨论了改进 A4000GPU CI 命令,包括训练检查点验证,当前命令涉及 makepython 脚本用于测试和训练GPT-2模型。

内存合并在NVIDIA Cutlass中的重要性 :@faradaykid 解释了 内存合并 在warp中连续访问内存时的性能关键性,更多细节请参考 Stephen Jones的GTC 2022演讲

Triton后端与ARM Neon的集成 :@iron_bound 分享了 链接,讨论了 TritonARM Neon 方言操作的集成,包括各种矩阵-矩阵乘法累加操作。

Mojo与Python性能比较 :@ipasaris 和 @haithamgad 强调 Mojo 由于更好的工程设计、静态类型和编译时优化,性能优于 Python ,Python的全局解释器锁(GIL)和运行时类型检查导致其性能较慢。

新的夜间Mojo编译器发布 :发布了新的夜间Mojo编译器版本 2024.6.616,更新包括将 StringRef C字符串初始化器更改为接受 UnsafePointer[C_char],并添加了 String.format 方法。原始差异和当前变更日志变更日志

Dolphin 8x22作为竞争者 :@hauntedxd 对 Dolphin 8x22 表示兴趣,@louisgv 提到正在进行基础设施工作以支持在 OpenRouter 上托管。

Prometheus 2用于评估RAG应用 :@andysingal 介绍了 Prometheus 2,强调其与 LlamaIndex 的集成,用于评估 检索增强生成(RAG) 应用。

RAG应用程序用于结构化数据检索 :@galvan3765 正在开发一个 RAG应用程序 ,从发票和采购订单等文档中提取结构化数据,过程包括解析文档、将其分割成节点、分块和构建带有重新排序器的检索引擎。

GPT-4性能问题 :@svaroop 报告尽管使用付费Plus订阅,GPT-4 在过去一周表现不佳,常常不遵循命令,生成的内容质量低于 GPT-3.5

Sonar large32k与Claude性能比较 :@walczyk 强调 Claude 解决了 Sonar large32kGPT-3.5 存在的问题,表明Claude的性能显著提升。

混合搜索在RAG应用中的必要性 :@cyanidebyte 强调 仅矢量搜索不足以 满足RAG应用的需求,必须结合矢量搜索、全文搜索和使用语义排序器的重新排序以获得最佳结果。详细阅读

Azure AI搜索功能 :Azure AI搜索支持 混合搜索 ,通过执行矢量搜索、使用BM25进行全文搜索、使用互惠排名融合合并结果,并使用语义排序器重新排序,确保找到语义相似的概念和精确匹配。

HuggingFace & Github:

人工智能与技术创新

  • Higgs-Llama-3-70B 是从meta-llama/Meta-Llama-3-70B进行后训练的,专为角色扮演 而设计,同时在一般领域的指令遵循和推理任务中表现出色。它在MMLU-ProArena-Hard 基准测试中分别取得了63.2和49.6的优秀成绩,支持使用Transformers库进行文本生成。

  • Qwen2-7B-Instruct 是Qwen大型语言模型系列的新版本,支持最多131,072个标记的上下文长度 ,适用于处理大量输入。基于Transformer架构,具有SwiGLU激活组查询注意力 等特点,在多项评估指标上表现优秀。

  • Stheno-v3.2-Zeta 是专为故事创作和角色扮演任务 设计的语言模型的迭代版本,改进了多轮连贯性和提示遵循性,支持适合工作的(SFW)和不适合工作的(NSFW)内容混合使用。

自然语言处理与模型优化

  • PCM_Weights 利用LoRA权重进行快速文本到图像生成。更新内容包括转换所有LoRA权重并合并存储库,添加了类似LCM的PCM LoRAs ,适用于低步骤情况下的更好效果,使用DDIM或Euler 进行采样。

编程工具与插件管理

  • lazy.nvim 是一个现代化的Neovim插件管理器,具有强大的用户界面快速的启动时间 、自动缓存和字节码编译Lua模块。它支持部分克隆自动懒加载 ,并能在Neovim启动前自动安装缺失的插件。需要Neovim >= 0.8.0和Git >= 2.19.0版本。

这些内容展示了在人工智能与技术创新、自然后语言处理和编程工具等领域的最新进展,详细信息请访问相关链接。

来源:https://news.miracleplus.com/share_link/29275

AI创业酱紫卷?想让陆奇看上眼,挑战个Sora/Transformer再说

在这篇文章中,展示了人工智能初创公司的最新努力,重点介绍了大型模型和人工智能应用的发展。其中一项亮点是Sora级别的视频生成模型YiSu-Beta,拥有长达16秒的持续时间,并声称能理解物理世界,适用于边缘计算。像Sapient Inc.和RWKV这样的创新团队正在通过将树搜索与Transformer架构相结合,挑战传统的Transformer模型。活动还突出了人工智能在教育、记忆增强、评估甚至按摩疗法中的作用,通过各种项目展示。特别值得一提的是,一个讲故事的人工智能设备、用于人类记忆的多模态人工智能模型、人工智能评估平台和按摩疗法机器人。文章还涉及年轻创业者的充满活力,包括一个两周内创建的人工智能小程序平台项目和一位前华为才俊的努力,旨在为大型模型打造高性能芯片。初创公司演示中对参考和模因的使用反映了人工智能初创公司领域文化的不断演变。这篇内容对那些对最新人工智能初创公司趋势和塑造人工智能应用未来的创新技术感兴趣的人特别有趣。

来源:https://mp.weixin.qq.com/s/eixfM11-WnYmFB75L84rjg

OpenAI公开破解GPT-4思维的新方法,Ilya也参与了!

OpenAI在其GPT-4语言模型的内部运作方面取得了显著的突破。通过改进稀疏自编码器,研究团队成功地将GPT-4的内部过程分解成了1600万个可理解的特征。这种新方法采用了TopK激活函数,不仅揭示了模型的决策过程,还保持了高质量的重构和稀疏性。OpenAI通过发布源代码、模型权重和交互式可视化工具,使其研究成果完全开放。这一发展不仅是技术上的成就,也代表了向更大透明度和理解先进AI模型迈出的一步。如果你对AI的复杂性和可解释模型的追求感兴趣,那么这篇文章是必读的。

来源:https://mp.weixin.qq.com/s/iZHPnnIncVFa8QJOuH8qFg

Mistral AI微调黑客马拉松

Mistral AI的微调黑客马拉松是一场即将到来的虚拟活动,参与者可以利用Mistral的新微调API来增强AI模型以完成特定任务。值得注意的是,开发者有机会赢得前三名项目的2500欧元API积分。黑客马拉松强调提交作品时的原创性、技术技能、创造力和演示。参与者必须使用Mistral的API并遵守官方规则,可以选择个人或团队合作。该活动突出了对项目实际应用和潜在影响的关注,为AI社区的创新提供了一个平台。对于那些对AI开发感兴趣并希望在竞争环境中展示自己技能的人来说,这将是一次宝贵的经历。

来源:https://mistral.ai/news/2024-ft-hackathon/

Yann LeCun(@ylecun)

在最近在他的Twitter账号上分享的一份声明中,人工智能颜域的知名人物Yann LeCun反对对基础技术进行监管。他认为这样的监管可能会阻碍创新,并且让技术开发者对其产品的误用负责会阻碍技术的进步。这一观点挑战了当前关于科技监管必要性的讨论,强调了对新技术发展可能产生的负面影响。考虑到LeCun在科技社区中的影响力,他的立场具有重要意义,并为关于创新与监管之间平衡的持续辩论做出了贡献。这一内容可能会引起对科技政策、发展以及如何在管理风险的同时促进创新的更广泛讨论的人的兴趣。

来源:https://x.com/ylecun/status/1798839294930379209

小互

Chatwiz:一个非常丝滑的 AI 虚拟女朋友 高度还原真实对话 含提示词

Chatwiz:一个非常丝滑的 AI 虚拟女朋友 高度还原真实对话 含提示词

来源:https://xiaohu.ai/p/9185

StreamSpeech :实时语言翻译模型 可以实现流媒体语音输入的实时翻译

StreamSpeech :实时语言翻译模型 可以实现流媒体语音输入的实时翻译

来源:https://xiaohu.ai/p/9173

Nothing CEO 我们将进入一个后应用时代 在未来将不再有应用程序

Nothing CEO 我们将进入一个后应用时代 在未来将不再有应用程序

来源:https://xiaohu.ai/p/9169

快手发布“可灵”视频大模型 类似Sora技术路线 能生成超过120秒 1080P视频

快手发布“可灵”视频大模型 类似Sora技术路线 能生成超过120秒 1080P视频

来源:https://xiaohu.ai/p/9119

阿里云发布Qwen 2开源模型 性能超越目前所有开源模型和国内闭源模型

阿里云发布Qwen 2开源模型 性能超越目前所有开源模型和国内闭源模型

来源:https://xiaohu.ai/p/9146

宝玉

什么是提示词注入攻击? [译]

我们将介绍提示词注入的工作原理、常见类型以及潜在的风险和后果。你将了解提示词注入如何使得系统生成错误信息、编写恶意软件,甚至可能导致数据泄露和系统远程接管。视频还会探讨应对提示词注入的多种方法,包括数据审查、最小权限原则、人类反馈强化学习等。

来源:https://baoyu.io/translations/transcript/what-is-a-prompt-injection-attack

NVIDIA 公布了到 2027 年的 GPU 和互连路线图 [译]

在计算、网络和图形的发展历史上,Nvidia 有许多独特之处。此刻,它拥有大量资金,并且凭借其架构、工程和供应链在生成式 AI (generative AI) 市场中占据了领先地位,使其能够随心所欲地制定任何可能带来进展的路线图。

来源:https://baoyu.io/translations/nvidia/nvidia-unfolds-gpu-interconnect-roadmaps-out-to-2027

使用大语言模型 (LLMs) 构建产品一年后的经验总结 (第二部分)[译]

运营大语言模型应用程序提出了一些在运营传统软件系统时熟悉的问题,但通常有新的变化来保持新鲜感。大语言模型应用程序还提出了全新的问题。我们将这些问题及其答案分为四部分:数据、模型、产品和团队。

来源:https://baoyu.io/translations/llm/what-we-learned-from-a-year-of-building-with-llms-part-ii

为什么对于有的人来说 ChatGPT 并没有什么卵用?

看到微博上一位医生这条被 ChatGPT-4o 坑的微博,尝试从技术角度解读一下,这样也许能更好的理解现阶段大语言模型的优缺点,在实际应用中能扬长避短。

来源:https://baoyu.io/blog/ai/why-do-someone-think-chatgpt-doesnot-really-work-for-them

使用大语言模型 (LLMs) 构建产品一年后的经验总结 (第一部分) [译]

现在是使用大语言模型 (LLMs) 构建产品的激动人心的时刻。在过去的一年中,LLMs 的表现已经“足够好”可以应用于现实世界。LLMs 改进的速度,加上社交媒体上的大量演示,将推动预计到 2025 年 AI 投资达到 2000 亿美元。LLMs 的广泛可用性,让每个人,而不仅仅是机器学习工程师和科学家,都能在他们的产品中构建智能。虽然构建 AI 产品的门槛已经降低,但要创建那些不仅仅是演示效果好的产品,仍然充满挑战。

来源:https://baoyu.io/translations/llm/what-we-learned-from-a-year-of-building-with-llms-part-1

Github

Codium-ai/cover-agent

CodiumAI Cover-Agent: An AI-Powered Tool for Automated Test Generation and Code Coverage Enhancement! 💻🤖🧪🐞

来源:https://github.com/Codium-ai/cover-agent

BuilderIO/micro-agent

An AI agent that writes code for you

来源:https://github.com/BuilderIO/micro-agent

SawyerHood/tlbrowse

Generate imagined websites on an infinite canvas

来源:https://github.com/SawyerHood/tlbrowse

Bklieger/groqbook

Groqbook: Generate entire books in seconds using Groq and Llama3

来源:https://github.com/Bklieger/groqbook

6677-ai/tap4-ai-webui

One-click to deploy your own ai tools directory with the open source web-ui

来源:https://github.com/6677-ai/tap4-ai-webui


本文档由扣子生成,资讯版权属于原作者。 豆包机器人链接:https://www.coze.cn/store/bot/7343089859382444051?bot_id=true 一支烟花社区提供技术支持,了解更多点击:https://sourl.cn/MsNyXj
  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一支烟一朵花

所有打赏将用于一支烟花AI社区

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值