1.针对复杂应用场景中高质量数据匮乏问题
中国人工智能高质量发展:现状、问题与方略
高质量数据相对匮乏,基础技术积累相对滞后
中国在人工智能发展过程中面临着高质量数据匮乏和基础技术积累落后的问题。根据麦肯锡2018年的一份报告,数据标签是人工智能应用的最大障碍。人工智能算法需要大量标注和清洗过的数据用于训练,基于庞大人口基数的海量数据是中国人工智能发展的优势所在,但中国缺乏准确、完整、及时、可靠、一致的高质量数据,国内专业数据服务尚处于起步阶段,存在数据积累少、数据标准不统一、数据共享机制不完善等现实问题,这可能影响到人工智能技术的创新和发展。同时,人工智能高质量发展需要强大的基础技术支持,而中国在人工智能方面技术应用较强、基础理论研究较弱,高校和科研院所大多侧重于新型人工智能模型开发与训练,在基础技术研究方面的积累相对滞后,与发达国家相比存在一定的差距。这可能与科研投入不足、缺乏高水平的研究机构和人才流失等因素有关。
2.研究稀缺受限数据的高效合成方法,突破限制大模型性能提升的数据壁垒
Generative AI for Synthetic Data Generation: Methods, Challenges and the Future
从大型语言模型(LLMs)生成合成数据的最新方法
- 第II-A小节:提示工程技术
总结专为探测LLMs以获得所需数据而设计的提示工程技术。 - 第II-B小节:参数高效的任务相关数据生成方法
讨论如何采用参数高效的方法使LLMs适应于生成任务相关数据。 - 第II-C小节:合成数据集质量评估方法(BLEU等指标)
介绍评估合成数据集质量的方法。 - 第II-D小节:合成数据的有效利用
探索如何有效利用合成数据进行训练。
合成数据的应用 - 第III-A小节:在低资源任务中的应用
集中讨论合成数据在资源有限任务中的应用。 - 第III-B小节:实际应用场景
讨论合成数据可以部署的实际场景。 - 第III-C小节:医疗领域的案例研究
提供合成数据在医疗领域应用的具体案例。
挑战与未来研究方向 - 第IV节:强调合成数据生成中的突出挑战。
讨论该领域未来研究的潜在方向。
3.由弱到强学习机制引导的数据合成框架
Weak-to-Strong Reasoning
随着人工通用智能(AGI)研究的推进,创造超越人类认知能力的超智能系统一直是该领域的一个关键目标。这一追求带来了一系列挑战,尤其是在这些高级AI