随着人工智能技术的不断发展,大模型成为了人工智能领域的热门话题。回顾2023年,国内大模型行业也迎来了一些新变化。
首先,越来越多的企业开始关注和应用大模型技术,像是腾讯、网易、昆仑万维等等,都推出了自家的大模型产品。其次,大模型的应用场景也在不断扩展,从最初的自然语言处理,到现在的视觉听觉识别、逻辑推理等等,大模型变得越来越强大。此外,随着大模型技术的不断成熟,产业化和商业化进程也在不断加速。越来越多的企业开始将大模型技术应用于实际业务中,推动了人工智能技术的落地和普及。
2023年,中国的大模型经历了飞速的发展,让市场对大模型的未来充满了更多期待。
多个评测维度表现优异
行业快速发展下,当前国内大模型正处于迭代阶段,各个大模型的性能差异及易用性也在市场的不断检验之中。
因此对大模型进行评测,是对行业进行评估性能、发现问题、比较优化、促进发展的重要一步。
2023年12月28日,以“大模型·大未来”为主题的“2023人工智能大模型基准测试科创发展大会暨中西部数字经济大会”在成都举行。
此次大会上,由OpenEval平台、中国软件评测中心、天津大学自然语言处理实验室、郑州大学自然语言处理实验室、红星新闻和长三角数据要素流通服务平台联合发布了《2023人工智能大模型基准测试白皮书》(下称“《白皮书》”)。《白皮书》以专业视角解析大模型在应用领域的优势与不足、机遇与挑战,为行业构建全景视图,探索人工智能领域专业技术的进步及突破。
据了解,此次评测依托AI大模型评测开放平台OpenEval,遵循中国信通院“方升”大模型评测体系及《大规模预训练模型基准测试-总体技术要求》标准,中国软件评测中心(工业和信息化部软件与集成电路促进中心)《人工智能大语言模型测评规范》,以及天津大学联合中国电子技术标准化研究院等单位联合发起的《人工智能大语言模型对齐能力评估》标准。
具体在评测方式上,此次评测聚焦于大模型的知识能力和价值对齐两大维度、六则细项,包括语言知识能力维度、学科知识能力维度、常识知识能力维度、数学推理能力维度、伦理对齐能力维度和安全可控能力维度,以此对大模型展开全面评测。
从评测结果来看,腾讯混元大模型在语言知识能力维度、学科知识能力维度、常识知识能力维度、数学推理能力维度、伦理对齐能力维度均表现优异。
其中,学科知识能力维度得分高达82.6分,测算方法采用人类标准化考试方式,对大型模型进行多学科知识水平的综合评估,以确保其在各学科领域的广泛知识基础。学科知识按照学科类型有人文艺术、社会科学、自然科学等类型。
此外,腾讯混元大模型在数学推理能力维度方面也表现出了显著优势。该项以数学应用题的形式进行评测,重点考察大型模型在基础数学推理方面的能力,以保证其具备对复杂数学问题的解决潜力。数学推理包含了方程、分数、集和、四则运算、概率统计等内容。
总的来说,评测以“权威”和“学术”为基色调,腾讯混元大模型在此次“通用大模型”的6个评选细项均表现突出,展现出了大模型能更广泛、更深入地改变人们生活的可能性。
此外,值得一提的是,在2023年12月22日,全国首个官方“大模型标准符合性测试”结果公布,腾讯混元大模型凭借在通用性、智能性、安全性等多个指标上的领先成绩,首批通过国家大模型标准测试。
混元大模型优在哪里?
作为一款打磨已久的产品,能够在测评中取得良好表现,腾讯混元大模型的优势究竟来自何处?
首先,是高质量的数据。
众所周知,通用大模型是需要大量的数据进行训练。这些数据包罗万象,包括书籍、网页、新闻、社交媒体等多个来源共同构成大模型的“知识库”。
在公开数据的收集、存储和处理等方面,腾讯能够运用一系列技术,快速地处理数据,并且保证数据的质量和可靠性。
腾讯大模型的语料资源,从训练阶段可以至少分为预训练底座数据和精调指令数据。其数据来源以业界公开的互联网数据为主,如腾讯自有QQ浏览器网页搜索的优质中文网页索引,以及包括搜狗百科在内中文百科等数据,还有来自腾讯各业务自有的公开资讯、知识性数据收集。
其次,是内容的可靠性。
使用过大模型的用户可能都有体验,大模型经常会答非所问,一本正经地胡说八道。也就是说,大模型生成了不属于现实世界的内容,这就是“幻觉”。
“幻觉”是每一个大模型厂家无法回避的问题。OpenAI首席技术官MiraMurati认为,ChatGPT和底层的大型语言模型的最大挑战是它们会输出错误的或者不存在的事实。这可能源于训练数据中的错误或虚假信息,也可能是过度创造的副产物(如虚构事实)。
对此,腾讯混元大模型所采取的方式,是在预训练阶段,通过“探真”算法进行事实修正,有效降低了复杂任务中的幻觉。根据测试,经过预训练算法及策略的整体优化后,混元大模型相比其他主流开源大模型,幻觉比例降低了30%—50%。
此外,在面对陷阱问题时,腾讯通过强化学习的方法,让混元大模型学会识别陷阱问题,对难以回答或不应回答的问题说“不”,提升应用安全性和智能感,由此混元大模型面对安全诱导类问题的拒答率已提升了20%。
再次,是训练方式的优化创新。当下,大模型的参数规模呈现指数级增长,如何提升大模型训练和推理的效率,并降低成本,成为业界关注的焦点。
腾讯混元大模型是腾讯全链路自研的大模型,基于自研机器学习训练框架,对预训练、模型精调和强化学习等全流程进行加速和优化。此外,为解决推理成本不断上升的问题,腾讯自研的大模型推理框架,可实现更快的推理性能和更低的成本。
目前,相关能力已通过腾讯云对外开放。基于升级后的 Angel 机器学习框架,腾讯云 TI 平台可提供更优的训练和推理加速能力,并支持客户用自己的数据一站式训练精调,基于腾讯混元大模型打造专属智能应用。
最后,是多模态的融合能力。
多模态融合发展是指大模型能够充分利用不同模态的数据和信息,包括文本、图像、音频和视频等,进行深度的融合和处理,从而提升其在自然语言处理、计算机视觉和多媒体处理等领域的应用效果。
2023年10月26日,腾讯宣布混元大模型升级,正式对外开放“文生图”功能,展示了其在图像自动生成领域的领先能力。升级后的腾讯混元中文能力整体超过GPT3.5,代码能力大幅提升20%,达到业界领先水平。
“文生图”在市场中难度较大,既要理解用户输入的文本,又要让生成的图片合理,还要让细节足够丰富有质感。腾讯对外展示了混元大模型图片生成能力,在语义理解、内容合理和画面质感方面,都做了改善。
据介绍,腾讯混元大模型正在不断强化图片、视频、音频等各类模态的处理能力,相关成果也将很快面向外界推出。
未来应用场景在何方?
任何一项技术,落地才是硬道理。
作为实用级大模型,腾讯混元的应用场景十分广泛,可以为各个行业提供智能化服务,推动产业升级和数字化转型。各行各业都可以通过大模型的应用来提高工作效率、提升服务质量。
比如在金融行业,有大量的数据处理需求,同时还需要进行风险评估、信用评级等复杂的分析工作。腾讯云发布了金融行业大模型解决方案,支持接入腾讯混元大模型、金融行业大模型及20多个主流开源模型,具备金融领域知识推理、研报撰写、智能舆情等专业下游任务能力,通过将大模型与行业场景深度结合,有望将智慧金融服务提升到新水准。
再比如,保障百姓健康的医疗行业,同样需要处理大量数据。腾讯健康基于腾讯混元大模型,打造了面向医疗行业的专属大模型。未来,腾讯混元大模型将有望成为医生的助手,不仅能通过智能导诊迅速了解患者需求,帮助他们找到合适科室或者其他专业的医疗服务,还能借助大模型丰富的医学知识,为医生和患者提供医疗问答支持,答疑解惑。
此外,大模型还将助力智能客服、智能语音助手、智能推荐等多个领域,推动高速发展。而对于个人用户,也可以通过腾讯混元大模型进行内容创作、提升自己的工作和学习效率。目前腾讯混元大模型已经支持文生图功能,并已在腾讯广告等业务场景中落地,后续也将持续研发文生视频、文生3d等多模态方向。
随着技术的不断发展,我们可以预见未来大模型将更加智能化、多样化,能够更好地适应和满足各种复杂的应用需求。这将为各个行业带来更多的创新和变革,推动整个社会的科技进步和发展。