文章目录
- 1 ChatGLM-Med: 基于中文医学知识的ChatGLM模型微调
- 2 LawGPT_zh:中文法律大模型(獬豸)
- 3 ChatGLM+哈利波特剧本:ChatHarryPotter
- 4 Lawyer LLaMA
- 5 法律:Legal-ChatGLM
- 6 医疗:MedQA-ChatGLM
- 7 三国演义:ChatGLM微调
- 8 MedicalGPT-zh:中文医疗对话语言模型
- 9 alpaca_chinese_dataset 翻译数据集
- 10 BELLE:1.5M中文数据集
- 11 Firefly(流萤): 中文对话式大语言模型
- 12 中文对话模型 Linly-ChatFlow
- 13 pCLUE
- 14 中文科学文献数据集(CSL)
- 9 其他项目
头两篇在写【悟乙己:LangChain:通过LLM实现QA问答中的一些细节笔记(二)】和【悟乙己:LangChain:万能的非结构化文档载入详解(一)】
然后笔者自己也测试了一把ChatGLM的P-Tuning V2在【悟乙己:ChatGLM的P-Tuning v2微调笔记】感觉
LangChain+ChatGLM这一套知识库的打法有几种:
- LLM基础模型 + 知识库(向量化搜索)
- LLM微调模型 + 知识库(向量化搜索)
其中,笔者自己测试下来,如果你的数据集符合微调的标准,最好就是走第二种路线,效果会好些,这里我们从几个开源项目入手,来了解一下:
- 数据准备的经过
- 训练效果与开源模型