中医药大语言模型的关键技术与构建策略

中药产业既是传统的优势产业,也是国家重点扶持的战略性新兴产业。国家中医药管理局发布的《“十四五”中医药信息化发展规划》强调要在中医药领域开展云计算、大数据、物联网、人工智能、5G、区块链、智能感知等新一代信息技术的集成应用研究,探索一批中医药数字化应用场景建设[1]。当前,中医药产业转型升级迫在眉睫,“数字化”作为当下经济发展的重要引擎,为中医药发展提供了新思路。云计算和大数据技术为中医药数据的收集、存储、分析提供了良好的技术支持和基础架构。然而,海量的中医药数据并非易于直接解读,传统的人工分析方法不仅耗时耗力,而且容易受到主观因素的影响,难以挖掘其中深层次规律和潜在关联。如何利用人工智能和大数据分析技术,推动中医药的转型升级,成为了一个亟待解决的问题。

人工智能是一种模拟和扩展人类智能的技术,其通过计算机程序来模拟通常需要人类智能才能完成的任务,如感知、学习、推理和决策。人工智能已经成为推动社会发展、提升人类生活质量的重要力量,并已逐步融入中医药体系的多个环节,在中医四诊[2-6]、健康管理、名老中医传承[7]、配方创新等多方面都得到应用。近年来,以生成式人工智能(artificial intelligence generated content,AIGC)为代表的新一代人工智能技术,加速了人机互动进程。在这一领域,大语言模型(large language models,LLM)已成为研究热点,其在多种自然语言处理任务上已取得显著成果[8-9],并表现出了良好的知识涌现能力。

中医药LLM是数字化、智能化革命的代表,将传统中医理论与现代科技相结合,有望为中医药的研究、临床应用和发展提供强大的支持。LLM在中医药领域中的应用主要体现在通过先进的人工智能技术,对中医药的古籍文献、临床数据和药物成分进行深入分析和挖掘,从而辅助新药发现、优化中药配方、提高诊疗精度,促进中医药知识的传承与创新,为中医药的现代化和全球化提供强有力的技术支持。自2022年11月聊天生成预训练转换器(chat generative pre-trained transformer,ChatGPT)发布以来,中医药领域已有多个聚焦于中医药智能问诊、中医辅助诊断、中医养生咨询、中医药知识问答、中药产业链的中医药LLM问世(图1)。这些中医药LLM在提升智能化诊断准确性、优化问诊流程、增强用户体验和促进中药产业链数字化等方面取得了显著进展。但由于数据资源匮乏、模型训练数据不足、核心算法适配性有限及实际应用场景复杂等原因,这些模型还存在泛化能力不足、数据融合难度大、模型可靠性有待提高等问题。

中医药作为中国传统医学的重要组成部分,其独特的治疗理念和丰富的药材资源为世界医学做出了巨大贡献。然而,中医药智能化发展底层核心技术相对薄弱,制约了中医药现代化高速发展的进程。为加强中医药科技创新体系建设,提升传承创新能力,中药现代化的发展急需融入各行业前沿技术。通过构建中医药领域的专有数据LLM,促进中医药丰富的理论、经验和实践知识有机整合,有助于挖掘中医药的潜在价值,提升诊疗的精准度和效率,促进个性化医疗服务的发展。

LLM技术的融入为中医药的传统诊疗方法带来了创新,但在数据质量、模型准确性、应用场景等方面仍面临挑战。因此,本文旨在探讨开发中医药LLM的关键技术方法、中医药LLM构建策略及应用场景,为推动人工智能辅助中医药LLM的技术探索和科技创新提供参考。

1 中医药LLM的关键技术与方法

1.1 数据存储

中医药领域涉及大量的数据,在中医药LLM的构建过程中,数据存储技术具有重要作用,其不仅确保了数据的安全存储,还为模型的高效训练和深度分析提供了强有力的支持。为了有效支持LLM的训练需求,需要采用多种高效的数据存储和管理技术,如分布式文件系统(Hadoop的HDFS、Google的GFS,以其高吞吐量的数据访问能力,可为大规模数据集提供高效的存取解决方案)、对象存储系统(Amazon S3、Google Cloud Storage具有极高的扩展性和全球访问能力,适用于大量静态数据的存储)。

1.2 数据处理

为构建功能强大的中医药大模型,研究者需从多元化的数据源中收集大量数据,然后通过数据清洗、词元化及数据调度等步骤进行数据处理,具体流程见图2。数据清洗通过去除数据集中的噪声、不相关信息、敏感内容及重复条目,确保训练数据的纯净度和准确性,实现数据质量的严格控制。词元化过程将文本数据分解为更小的单元,提升模型对文本的理解和处理效率,增强模型捕捉语言细微差别的能力。数据调度环节至关重要,涉及高效合理地安排数据处理的时间和顺序,确保模型能够快速吸收和学习数据中的关键信息。

1.3 检索增强生成**(retrieval-augmented generationRAG)**

RAG作为一种结合检索和生成的技术,为提高模型在特定任务上的表现和效率提供了新视角[10]。RAG采用向量化技术将文档库中的文档转化为向量,在这些向量上构建高效索引系统[11],具体构建流程见图3。RAG技术通过有效融合检索和生成过程,能够在回答复杂问题时提供更深入、更具体的信息,提升了内容的相关性与准确性[12]。

在中医药领域,RAG技术通过结合现代信息检索系统和自然语言处理技术,可以高效的从海量中医药文献和临床数据中提取与特定病证或药物相关的信息,进而促进中医药病例分析、药物配伍及治疗效果评估等领域的发展[13-15]。然而,RAG对检索系统的依赖性较强,模型的表现在很大程度上依赖于底层检索系统的效果,且RAG系统在训练和推理阶段计算成本较高,其在实际应用中的广泛性和实时性会受到影响[16]。

1.4 人类反馈强化学习**(reinforcement learning from human feedbackRLHF)**

RLHF是一种结合了传统强化学习算法和人类反馈的技术,用于改进LLM的行为和决策过程[17-18]。通过数据收集、奖励设计、模型训练、策略迭代,RLHF可有效提升模型的性能,其工作原理见图4。在中医药领域,名老中医的丰富经验与用户反馈被整合进RLHF,进一步增强了LLM在智能问诊、知识问答、药方推荐及养生建议方面的准确性和实用性。这种方法不仅提升了中医药LLM的应用效果,

也保证了其在复杂临床场景中的适应性和有效性。具体而言,RLHF整合人类直觉和偏好优化语言模型,使模型能够适应复杂和不确定的任务,更好地反映人类的价值观和期望,从而提高模型的适应性。为了增强LLM与人类价值观的一致性,RLHF通过利用人类反馈数据来指导模型微调,从而在多个标准上实现与人类的对齐。该过程首先需要收集人类对不同模型输出的偏好,然后使用这些反馈数据训练奖励模型,最后基于奖励模型运用强化学习算法对LLM进行微调。RLHF支持细粒度的优化,允许模型在执行特定任务时,如文本生成和对话交互,更精确地调整行为以满足用户特定偏好[19]。这种方法不仅提升了模型的实用性,而且为模型的定制化和迭代开发提供了极大的灵活性和可扩展性。

然而,RLHF在使语言模型与人类意图保持一致的过程中也面临挑战。RLHF依赖的数据及其标注的复杂性引入了多种主观因素,如标注者偏好和研究设计等,可能导致模型输出与实际用户需求之间存在偏差[20]。因此,尽管RLHF在提高模型适应性方面具有显著优势,但仍需谨慎处理这些潜在的偏差问题,以确保模型的输出能够真正符合用户需求。

1.5 混合专家系统**(mixture of expertsMoE)**

MoE通过整合规则推理、神经网络、机器学习和模糊逻辑等技术,形成能够处理复杂和不确定问题的系统[21],具体原理见图5。MoE通常包括知识处理模块、推理机制模块和学习模块。每个模块专注于处理特定类型的任务,通过动态调度协同工作,以实现最优决策。MoE的自我学习和适应性使其能够从新的数据和经验中不断学习和优化,从而提高决策的效率和质量[22]。在中医药LLM中,MoE通过整合传统中医知识和现代医学研究结果,能够处理诊断和治疗中的不确定性问题,并吸纳新的临床研究结果和患者反馈,不断优化和更新治疗策略,使中医药LLM的应用更加精准、高效。具体而言,MoE可以有效整合不同的决策支持技术来增强模型的理解和生成能力[23],在处理自然语言的模糊性和复杂性问题时提供更加精准和鲁性棒的决策支持[24],从而提高模型在复杂语境中的应用效率,增强模型对新情况的适应能力和学习速度[25]。

1.6 知识蒸馏

知识蒸馏是一种模型压缩技术,其基本原理是将大型、复杂的教师模型学到的知识传递给小型、结构简单的学生模型[26],具体原理见图6。在知识蒸馏过程中,通常使用教师模型的输出指导学生模型的训练,从而使学生模型能够模仿教师模型的行为。通过这种方式,学生模型可以从教师模型中蒸馏出丰富的知识,包括数据分布、模式和规律等,从而达到在学生模型上实现与教师模型相似甚至更好性能的效果。

在LLM开发领域,知识蒸馏主要用于减少模型的规模、算力需求和能耗,同时尽量保持模型的性能[27]。如通过从1个几十亿参数的LLM中蒸馏出只有几百万参数的模型,可以显著降低部署成本和提高运行速度,同时在任务性能上保持接近原始LLM的效果[28]。

中医药系统包含大量的复杂知识和临床实践数据,传统的LLM往往需要庞大的计算资源来处理这些信息。通过知识蒸馏技术,可以有效地将复杂的中医药知识和临床经验从大型教师模型转移到更小、更高效的学生模型中,有助于在有限的计算资源下提供快速、准确的中医药诊断和治疗建议,促进中医药知识的更广泛传播和应用。此外,知识蒸馏还有助于解决中医药数据稀疏性和不均匀性问题,通过从LLM中提取和压缩关键信息,学生模型能够更好地处理和理解分散的中医药数据,从而提高诊断的准确性和治疗的个性化推荐。这种方法不仅提高了中医药LLM的实用性和访问性,还增强了其在实际临床环境中的应用效率和效果。

1.7 LLM训练微调方法

1.7.1 预训练 LLM的预训练策略主要通过在广泛的语料库上进行无监督学习,使模型掌握语言的通用模式和结构。这一过程通常涉及预训练和微调2个阶段。在预训练阶段,LLM通过大量文本进行训练,以学习语言的基本语法、语义和上下文关系。掩码语言建模[29]和下一句预测[30]是2种在自然语言处理领域中广泛使用的预训练任务,能够帮助模型捕捉词之间的依赖关系和句子间的逻辑关系。

1.7.2 微调与对齐 大型语言模型的微调是针对特定任务调整预训练模型的过程,旨在通过细微调整模型的参数来适应具体应用,从而提高任务相关性能[31]。微调通常在较小的、特定任务的数据集上进行,使用与预训练阶段相同的或修改后的损失函数,加快模型的训练速度。

监督微调是LLM微调中一种关键的优化策略。监督微调在预训练阶段后,利用带标签的数据集进行的定向训练,通过反向传播和梯度下降方法调整模型权重,以减小预测输出与实际标签间的误差[32]。监督微调充分利用了预训练模型的语言处理能力,提升模型在具体任务上的专业适应性和准确性。在实际应用中,监督微调能够实现LLM的高效性能提升,为深入研究LLM在各领域中的应用提供了重要的技术支持[33-34]。

在LLM构建中,指令微调是常用的微调方法[35]。指令微调需要首先收集或构建指令化的实例,然后通过有监督的方式对LLM的参数进行微调。经过指令微调后,LLM能够展现出较强的指令遵循能力,能够通过零样本学习方式解决多种下游任务[36]。

低秩适配器(low-rank adaptation,LoRA)作为一种参数高效的微调技术,在LLM微调中受到广泛关注。LoRA通过在预训练模型的参数矩阵中引入低秩分解矩阵,实现对模型各层参数的近似更新,维持模型性能并且显著降低了针对特定下游任务的训练参数量[37]。与传统的全参数微调方法相比,LoRA提供了一种成本效益较高的替代方案,被广泛用于LLM的高效微调[38]。

人类对齐是在微调过程中确保学习的表示与特定任务需求保持一致的过程,旨在保证LLM的行为与人类期望和价值观一致。在LLM的预训练和监督微调的过程中,主要训练目标是根据上下文内容来预测下一个词元。但是,这一过程并未充分考虑人类的价值观或偏好,可能导致LLM从数据中学习到不符合人类期望的生成模式[39]。人类对齐确保了不同语言之间的语义和语法结构能够相互转换,保持表征的有效性和一致性。这些过程使得大型模型在各种应用中都能达到较高的精度和适应性,同时保持了预训练阶段获得的丰富知识。

1.8 LLM评估方法

在评估LLM的能力时,研究者需综合多个维度考察其性能,包括通过多种任务来测试模型的泛化能力,并且根据不同的应用场景,选择恰当的评价指标以确保性能的精确测量。表1展示了不同分类任务的常用评价指标,这些指标确保了评估过程的严谨性和模型性能评价的有效性。

2 中医药LLM的构建框架

中医药数据具有类型多样性与逻辑复杂性的特点,为实现中医药数据的有机融合,提高信息处理的效率和模型的智能性,本文从高质量数据集构建、多领域专家系统融合、信息快速提取、训练与调优等方面入手,结合RAG、MoE、LoRA、监督微调技术,提出了构建中医药LLM的框架,见图7。

2.1 中医药高质量数据集

高质量数据集的构建是实现LLM开发的基础。中医药数据集通常包含公开数据和私有数据2部分。在收集公开数据集时,必须对数据来源进行严格筛选,优先考虑经过同行评审的学术期刊、权威中医药机构发布的数据,及政府和相关机构的公开数据库。这类数据的可靠性高,有益于LLM从中提取正确的知识。对于私有数据,如医院的临床记录、个人健康记录等,需确保在遵守相关法规和国际规范的前提下进行收集和使用。此外,数据还需经过严格的隐私保护措施,如采用高级数据脱敏技术和加密协议,确保数据在分析和模型训练过程中的安全性和隐私性。

数据整合和标准化是构建高质量数据集的关键。通过制定统一的数据模型和编码系统,将不同来源和格式的数据转化为统一的格式,可以促进数据的整合、存储和分析。如采用国际疾病分类系统和中医病症分类标准,可以标准化诊断信息,增强数据的国际化兼容性和扩展性。广泛采集多样化的数据,进行标准化和结构化处理,实施严格的质量控制,同时确保数据的伦理性和隐私保护,可构建出一个高质量的数据集,为中医药LLM的开发提供坚实的基础。

2.2 中医药多领域专家系统构建

中医临床决策支持系统作为中医现代化发展的重要组成部分,正日益受到广大医务工作者的关注和重视[40]。中医药涵盖内科、外科、妇科、儿科等多个领域,各个领域都有其独特的诊疗方法和理论体系。中医药多领域专家系统构建有助于中医临床决策支持系统的快速发展,利用MoE技术构建各领域的子模型,通过集成所有子模型能够保证各领域模型精度,应对不同领域的需求,提高模型的综合性能。

2.3 中医药文本信息快速提取

中医药文本浩如烟海,其中包含大量宝贵的知识,但如何有效地从中获取并利用这些知识是一个关键问题。在中医药LLM设计中融入RAG技术,将知识检索与生成相结合,通过RAG模型,可以从海量中医药文献中精准提取所需信息,并生成相应的回答,有助于中医药文本数据中隐性知识的发现。

中医药学术传承是中医药服务高质量发展的基础[41]。中医古籍是中华传世古籍的重要组成部分,在中医药传承创新中具有重要地位[42]。然而中医药古籍文本的语言晦涩、数据结构非标准化[43],理解这些古籍内容的难度相对较大。为构建兼容性强的中医古籍LLM,研究者可以利用自然语言处理技术对古籍文本进行深入的语义分析和结构解析,提取关键术语和句式结构。然后,通过继续预训练方法,将大量中医药文本输入模型,使其在学习通用语言的同时,增强对中医术语的理解和应用能力。此外,融合有监督学习策略,利用专家标注的高质量数据集进行微调,确保模型输出的准确性和可靠性。通过以上方法,LLM能解读中医古籍文本,为研究者和实践者提供精准、易于理解的知识服务,从而有效克服传统中医文本处理的难题。

2.4 训练与调优

中医药LLM需要在多种不同的任务和数据集上进行适应和微调,以满足不同的应用需求。LoRA和监督微调是常用的2种微调策略。LoRA技术通过引入低秩适应机制,在保持模型参数量不变的情况下,实现对不同任务的高效适应。在通用LLM基础上,运用LoRA技术对模型进行微调,使其能够更好地适应不同的中医药任务,如辨证论治、药物配伍等任务,有助于实现较低算力成本下的模型性能提升。中医药LLM的构建需要不断进行优化和调整,以适应不断变化的应用需求和数据环境。监督微调技术通过在特定任务的数据集上进行进一步训练,使预训练模型能够更好地适应特定任务的需求,并通过标注数据集进行监督训练,提高中医药LLM在特定任务中的性能。

2.5 计算资源优化

在中医药LLM的开发过程中,算法效率和计算资源的优化是实现模型高效运行的关键因素。首先,针对中医药领域的特殊需求,可通过分布式计算框架如Apache Spark或TensorFlow,将大规模的数据处理和模型训练任务分散到多个计算节点上,提高计算效率,并减少单个任务的处理时间。同时,还可利用GPU加速技术对模型训练过程进行加速,缩短训练周期。其次,为了优化模型的存储和计算性能,可采用知识蒸馏技术,减小模型规模,降低计算资源消耗,将复杂的模型简化,保持模型性能,使其更适合在资源受限的环境中部署和运行。此外,考虑到中医药数据特有的层次性和非结构性,还应实时监控模型的性能和计算负载,动态调整算法参数和计算资源分配。

3 中医药LLM的应用场景

3.1 中医药学术传承

LLM能够处理大规模文本数据,提高信息检索的精确度和速度,张君冬等[44]通过构建的中医古籍生成式对话LLM,生成与古籍内容相关的深层次、动态的解答和解析,增强了知识的可访问性和实用性。结合自然语言处理技术对古籍文本进行语义分析和结构解析,构建中医药专业领域数据集,通过LLM的自然语言交互能力、知识理解和学习能力,深入挖掘和融合中医古籍资源,可为中医药学术传承提供有力支撑[45]。

3.2 中药智能制造

智能制造通过融合尖端制造技术和先进的信息技术,已成为提升中药制造质量控制水平的前沿方法[46],其对中药产业的数字化转型至关重要[47]。中药智能制造的核心在于对数据的深度挖掘和智能分析,从原材料的采购、加工、配方、生产到最终成品的出库,每一个环节都伴随着大量数据的生成。构建中药智能制造LLM,需要将分散在供应链各环节的数据进行有效整合,AIGC技术在这一过程中发挥着至关重要的作用,能够模拟专家的决策过程,识别数据中的模式和趋势,预测潜在的问题,并提出解决方案[48]。利用AIGC技术,可以提高非结构化数据的利用效率。如在生产过程中,可以实时监控生产参数,如温度、湿度等,并根据实时数据调整生产条件,以确保生产过程的稳定性和产品质量的一致性。中药智能制造LLM,不仅能够提升药品的质量控制水平,还能够推动中药制造行业的现代化和智能化发展。通过不断的技术创新和优化,中药智能制造LLM有望成为中药制造行业的重要支撑,为传统医药的传承与发展注入新的活力。

3.3 中药全产业链智能决策

在前述中医药LLM构建框架的基础上,课题组前期融合千种本草基因组数据库等具有独立知识产权的多源异构海量数据,建立了含2 000余万个实体和超20亿个关系对的知识图谱;提出了覆盖中药全产业链各关键环节的知识学习及发现方法;采用MoE技术,开发了集中药知识获取、管理与服务于一体的中药全产业链LLM——本草智库。多模态LLM对中药全产业链的优化和提升具有重要的战略意义。通过图像和文本的联合分析,有助于理解中药材的特性和作用机制,从而指导更精准的药物配伍和中药质量控制。因此,利用多模态LLM,实现中药研究底层核心数据与中药全产业链关键环节的有机结合,将是团队在LLM开发领域的一个关键研究方向。

3.4 临床决策支持

LLM在处理中医数据方面具有显著的优势,特别是在中医临床决策支持领域,其应用前景广阔[49]。中医疾病诊断依赖于较为抽象的“辨证论治”理论体系,为辅助LLM深入理解“辨证论治”,利用Transformers模型学习和模拟中医诊疗过程中的逻辑和推理,从而提炼出疾病诊断、治疗方法与药物配伍的深层次知识。通过在特定的中医临床数据集上进行微调,增强对中医独特诊疗体系的理解,包括辨证论治原则、药物配伍禁忌等,LLM能够为临床决策提供个性化的治疗建议。此外,还可以通过构建中医药知识图谱,将药物、疾病、症状及治疗原则等要素系统化,利用图神经网络理解和推理要素间复杂的关系,模拟中医药中的复杂逻辑和推理过程,增强LLM分析患者的症状描述、体质特点及历史治疗响应能力,综合生成符合中医理论的治疗方案,有效提升诊疗效率和精准度[50]。

4 结语与展望

自ChatGPT发布以来,全球对此类模型的研究兴趣日益浓厚。众多研究机构和公司随之开发了类似的开源LLM,如LLaMA、ChatGLM-6B和Gemini等,这些模型主要利用公开的学术文献和网络数据进行训练,应用广泛,但在特定行业的应用和精确度方面还存在限制。在中医药领域,尽管人工智能技术已被用于整理中医古籍、临床数据和药物信息等,但数据标准化和客观化程度不足,限制了人工智能技术在中医药领域的应用效果。因此,如何构建高质量的中医药数据集以提升模型训练效果,成为了中医药LLM开发领域的一个重要研究方向。

在中医药领域,随着LLM的广泛应用,确保数据安全和保护隐私变得尤为关键。为有效保护中医药数据的安全和隐私,可以采用分类与分层管理的策略。首先将数据根据敏感性和重要性进行分类,如将患者个人信息、临床试验数据和药物配方等高敏感性数据划分为最高保护等级。然后根据数据的分类结果实施分层管理,不同级别的数据采取不同级别的保护措施。随着技术的进步和法规的完善,中医药领域的数据安全管理将变得更加精细化和智能化,这不仅能够保障数据的安全性,也能提高数据的利用效率,为中医药领域的持续发展和创新提供支撑。

在中医药垂直领域LLM构建中,架构优化是提升其应用效果和精确度的关键。当前,模型架构主要围绕提高对中医药专业术语和治疗方法的理解能力进行优化。如通过增加与中医药相关的预训练任务,如古文解析和医案分类,可以显著增强模型的领域适应性。此外,多学科交叉融合为中医药LLM构建提供了新的机会。通过采用迁移学习和微调技术,将在其他领域训练好的模型适配到中医药特定任务上,能够在提升模型训练效率的同时,保证模型输出的专业性和准确性。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值