自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 FormalMATH Benchmark:推动AI极限的形式化数学基准

《FormalMATH:面向大语言模型的严苛数学推理基准》摘要2077AI开源社区联合多家顶尖研究机构发布了目前Lean4领域最大规模的形式化数学基准库FormalMATH。该基准包含5560道严格验证的数学命题,覆盖代数、微积分、数论等12个领域,难度从奥赛级延伸至本科高阶课程。研究采用创新的AI自动化管线与人机协同机制构建数据集,通过多模型交叉验证和反证过滤确保质量。评估显示,当前最先进的定理证明模型在Pass@32标准下成功率仅16.46%,暴露出在复杂逻辑结构和跨领域推理上的显著短板。错误分析揭示

2025-06-05 13:00:00 667

原创 让AI像人类一样思考:如何用数据喂养出 OpenAI o3 & o4-mini 的视觉大脑?

提前布局高价值数据资源的采集与标注,抢占多模态智能时代先机

2025-06-03 09:00:00 1243

原创 整数有约 | 刘乾专访:继续预训练策略与数据优化之道

人工智能多语言处理近年来得到了极大的关注,尤其是在以东南亚为代表的小语种环境中,其特殊的语言多样性和语料库稀缺性使得研究挑战和机遇并存。在现有的自然语言处理模型中,英语和中文因为有海量高质量数据的支持,常被作为核心语言开展预训练。然而,对于东南亚诸多小语种,由于语料的数字化程度较低,且缺乏行业相关的专业术语支持,模型的表现仍有显著提升空间。

2025-06-02 10:00:00 576

原创 大模型竞技场生存指南:当我们在谈论 Benchmark 时到底在比什么?

对AI模型在特定任务上的表现进行量化评估,以便比较不同模型之间的性能差异。简单来说,可以把各个大模型当作学生,那么 Benchmark 就是各类考试,如高考和数学竞赛等。大模型测评 Benchmark 内容分类。

2025-06-01 09:30:00 648

原创 突破知识传统依赖:模型内在推理能力评估的基准测试集 KOR-Bench

KOR-Bench建立了准确评估模型内在推理能力的测试环境,开创了人工智能能力评估的新范式

2025-05-30 09:00:00 613

原创 最全Agent开源数据集分享系列一

Agent(智能体)指的是具有自主观察、思考、规划、反思、行为等能力的人工智能系统。Agent的基本框架在本期Agent开源数据集分享中,我们整理了多个Agent开源数据集,涵盖网页操作、软件工程等多个任务和计划、多步推理、反思等多个核心能力。值得注意的是,相比LLM,由于Agent的数据具有跨模态、轮数多、绝对正确性弱等特点,故这些开源数据以BenchMark为主,且往往需要进一步提取与整合,才能得到格式化、标准化的Agent数据。

2025-05-29 17:30:00 940

原创 模型评测新范式:多源文档解析创新评测框架OmniDocBench

模型评测新范式:多源文档解析创新评测框架OmniDocBench

2025-05-28 13:53:02 698

原创 自动驾驶数据革命:半自动Occupancy标注如何定义3D感知新时代

鸟瞰图(BEV)作为当前主流的感知模式,具备描述环境的绝对尺度和无遮挡的优势,同时为多模态数据提供了统一的特征表示,便于众多下游任务的使用。然而,BEV感知缺乏高度信息,无法提供完整的3D场景表示。针对这一问题,2022年Tesla AI Day上,Elon Musk提出了将Occupancy(占据网格)应用于算法流程中,以捕捉真实世界的密集3D结构。Occupancy感知技术通过体素化世界推断每个体素的占用状态,具备对开集对象、不规则形状车辆和特殊道路结构的强大泛化能力。

2025-03-28 19:09:18 1137

原创 SuperGPQA: 突破285个学科边界的AI评测新范式-探索大语言模型的真实能力边界

SuperGPQA 的开源发布不仅填补了AI评测领域的重要空白,更开创了一个新的研究范式。

2025-03-24 18:30:49 986

原创 最全具身智能数据集分享系列 | 全球有哪些高质量具身智能数据集(附下载链接)

随着大模型和机器人技术的发展,具身智能(Embodied AI)赋予人工智能系统物理形态以实现与环境的互动和学习。从动作编程到人类遥操作,从机械臂到灵巧手,从硅谷到中国,具身智能在软硬件层面逐步建立起发展范式。

2025-03-14 16:28:17 2661

原创 最全具身智能数据集分享系列二 | 视觉语言动作(VLA)多模态模型数据集

VLA是一类专门设计用于处理多模态输入的模型,通过结合视觉和语言处理,VLA 模型可以解释复杂的指令并在物理世界中执行动作。VLA模型的开发旨在应对具身智能中的指令跟随任务。

2025-03-13 18:32:15 2300

原创 大模型推理能力的数据基石:运筹学作为LLM训练数据的独特价值

运筹学问题为大模型的推理能力训练提供了丰富的场景,从线性规划的连续变量优化,到整数规划的离散决策问题,从具有阶段性的动态规划,到网络流中的图优化问题,每类问题都考验着模型不同维度的推理能力。

2025-03-12 18:41:58 968

原创 数据科学竞赛界的Manus?多智能体框架AutoKaggle开源,大幅降低数据科学门槛

AutoKaggle为数据科学家提供了一个端到端的数据处理解决方案,帮助简化和优化日常数据科学工作流程,同时我们也极大的降低了数据科学的门槛,可以帮助更多没有相关背景的使用者做出有价值的探索。

2025-03-11 18:02:46 1372

原创 模型Evaluation|文本大语言模型评估体系:从能力维度到方法论

同样,对于文本大语言模型的性能评估,也需要通过多维度的考量。评价文本模型的方法主要分为客观的确定性自动化评估与量化自动化评估,和具有更多主观性的主观人工评估,通过客观评价标准体系和主观专业判断的结合的评估体系,文本大模型的评估可以更加全面,专业和具体。文本理解与生成、图像识别与创作、视频处理与合成,这些任务有着各自的技术特点和应用场景,需要差异化的评估策略,因此,为了让读者更清晰地理解不同类型大模型的评估特点,我们将通过文本、图像、视频三个系列文章,分别剖析这些模型的评估体系。

2025-03-10 18:34:37 2160

原创 模型Evaluation|如何为您的AI模型选择正确的评估方法

模型评估的每一个维度都有其独特的重要性,而评估方法的选择直接决定了我们用什么样的标准衡量这些维度。选择合适的评估方法不仅能帮助我们了解模型的表现,还能指导后续的改进与优化。

2025-03-03 18:30:38 1280

原创 模型Evaluation|AI模型评估的维度有哪些?

在这篇文章中,我们将介绍AI模型评估的主要维度,包括模型性能、模型效率、鲁棒性、公平性和伦理维度、通用型和安全性,我们将分别介绍不同维度对应的模型性能与表现,以及不同维度对应的评估指标。提高模型的可解释性,不仅能增强用户信任,也能帮助开发者发现模型的潜在问题。鲁棒性维度关注的是AI模型在面对不确定和变化的输入时,是否能稳定、正确地工作,包括对噪声和异常输入的处理能力和对对抗性攻击的抵抗力。效率维度关注的是AI模型在资源利用方面的表现,尤其是在实际应用中,效率往往与模型的可用性和成本密切相关。

2025-02-25 18:34:01 821

原创 模型Evaluation|AI模型评估是什么,为什么AI模型评估越来越重要?

在模型的训练和运行过程中,资源的浪费不仅带来更大的成本投入,也会影响模型的最终效果与性能。通过模型评估,开发者可以优化模型的结构和算法,同时更加精准地提出训练数据需求,为AI模型搭建更加适配理想性能的高质量训练数据集,提高模型训练效率,在合理控成本的同时不断提升模型性能,更好地满足目标需求。这种“算法偏见”不仅影响模型的准确性,还可能导致不公平的结果,AI模型评估还可以帮助开发者识别和消除这些偏见,确保决策的公平性。这种持续的改进不仅能提高现有系统的表现,也能推动新的算法和技术的产生。

2025-02-25 16:50:34 986 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除