本文是LLM系列文章,针对《Hyacinth6B: A Large Language Model for Traditional Chinese》的翻译。
摘要
自2022年底ChatGPT出现以来,人工智能领域一直在进入一个新时代。这一发展不仅标志着自然语言处理技术的重大进步,而且深刻影响了生成人工智能领域,包括图像、视频和语音生成。大型语言模型(LLM)的蓬勃发展是这一转变的关键驱动力。然而,值得注意的是,传统汉语模型领域的研究较少,导致这一语言学界在这一波创新浪潮中落后。这项研究的主要动机是解决通常与LLM相关的高硬件和计算需求。因此,我们的目标是在模型的亮度和性能之间找到平衡,在使用相对较轻的模型的同时,努力最大限度地提高性能。Hyacinth6B的开发正是考虑到这一目标,旨在充分利用LLM的核心能力,而不产生大量的资源成本,有效地突破小型模型的性能界限。训练方法包括使用低秩自适应(LoRA)方法进行参数有效的微调。
最后,我们将评估Hyacinth6B,考察其各个方面的性能。Hyacinth6B在某些指标上表现出值得称赞的性能,甚至在两个类别上超过了ChatGPT。我们期待着为传统汉语处理领域提供更多的资源和可能性。本研究旨在扩大传统汉语模型的研究范围,增强其在不同场景中的适用性。