大模型学习路线（10）——入门项目推荐

熬夜造bug

已于 2024-06-01 17:21:36 修改

阅读量2.7k

点赞数 13

分类专栏：大模型 & AIGC 文章标签：学习 AIGC 人工智能机器学习

于 2024-04-01 15:07:36 首次发布

本文链接：https://blog.csdn.net/qq_51175703/article/details/137229088

版权

大模型 & AIGC 专栏收录该内容

13 篇文章

订阅专栏

目录

前言

一、多模态大模型——以VisualGLM实现图文转换（入门级）

1. 安装相关依赖包

2. 导入依赖库、导入model & processor

3. 导入图片链接

4. 图生文

5. 图片内容推理

二、LLM——基于文心大模型的金融知识库问答（进阶级）

0. 环境配置

1. 载入本地非结构化文档

2. 文档split为若干chunk文本块

3. 文本Embedding-->Vectors

4. 存入向量数据库（以FAISS为例，常见向量数据库还有Milvus）

5. Query查询（用户提问）

6. Prompt合成

7. 调用LLM模型，实现答案生成任务（以文心大模型为例）

8. RAG流程封装（将提示词Prompt输入给文心大模型，获得输出结果）

三、推荐项目（综合级）

前言

依托 aistudio 平台内容，章节一呈现了一个入门级demo（小白友好），以VisualGLM（多模型大模型）为例实现了图生文；章节二呈现了一个进阶版demo（适合有一定LLM基础的人群食用），以文心大模型（LLM+RAG）为例实现了金融知识库问答（参考aistudio上精品项目）；章节三推荐了数个综合级、系统化的项目（适合从事/预从事 LLM/AIGC 岗的人群食用），把每个项目深挖吃透后，基本可以从事相关岗。

一、多模态大模型——以VisualGLM实现图文转换（入门级）

1. 安装相关依赖包

用git命令从github上下载visualglm-6b模型到本地，git PaddleMIX安装包、pip其它相关依赖包。

!git clone http://git.aistudio.baidu.com/aistudio/visualglm-6b.git
!git clone https://github.com/PaddlePaddle/PaddleMIX
!pip install soundfile librosa

2. 导入依赖库、导入model & processor

import os
os.environ["CUDA_VISIBLE_DEVICES"] = "0"
os.environ["FLAGS_use_cuda_managed_memory"] = "true"

import requests
from PIL import Image
from PaddleMIX.paddlemix import VisualGLMForConditionalGeneration, VisualGLMProcessor
import warnings
warnings.filterwarnings('ignore')


# 设置visualglm-6b预训练模型的本地路径（PS：本地导入比直接云端下载速度会快很多）
pretrained_name_or_path = "aistudio/visualglm-6b"
model = VisualGLMForConditionalGeneration.from_pretrained(pretrained_name_or_path, from_aistudio=True,dtype="float32")
model.eval()
processor = VisualGLMProcessor.from_pretrained(pretrained_name_or_path,from_aistudio=True)

3. 导入图片链接

# 图片链接
# url = "https://paddlenlp.bj.bcebos.com/data/images/mugs.png"
url = 'https://i02piccdn.sogoucdn.com/5dd40dedd7107cc5'
image = Image.open(requests.get(url, stream=True).raw)

# 配置模型参数
generate_kwargs = {
        "max_length": 1024,
        "min_length": 10,
        "num_beams": 1,
        "top_p": 1.0,
        "top_k": 1,
        "repetition_penalty": 1.2,
        "temperature": 0.8,
        "decode_strategy": "sampling",
        "eos_token_id": processor.tokenizer.eos_token_id,
    }

图1

4. 图生文

# Epoch 1
query = "写诗描述一下这个场景"
history = []
inputs = processor(image, query)

generate_ids, _ = model.generate(**inputs, **generate_kwargs)
responses = processor.get_responses(generate_ids)
history.append([query, responses[0]])
print(responses)

图2

5. 图片内容推理

# Epoch 2
query = "这部电影的导演是谁？"
inputs = processor(image, query, history=history)
generate_ids, _ = model.generate(**inputs, **generate_kwargs)
responses = processor.get_responses(generate_ids)
history.append([query, responses[0]])
print(responses)

图3

二、LLM——基于文心大模型的金融知识库问答（进阶级）

图4. 整体流程

参考链接：https://aistudio.baidu.com/projectdetail/6682781?channelType=0&channel=0

0. 环境配置

# （1）下载PDF文档
!wget https://zihao-code.obs.cn-east-3.myhuaweicloud.com/20230709-langchain/carbon.pdf -i https://pypi.tuna.tsinghua.edu.cn/simple
!wget https://zihao-code.obs.cn-east-3.myhuaweicloud.com/20230709-langchain/car.pdf -i https://pypi.tuna.tsinghua.edu.cn/simple

# （2）安装依赖环境
!pip install transformers langchain openai unstructured tiktoken faiss-cpu sentence_transformers pypdf -i https://pypi.tuna.tsinghua.edu.cn/simple

1. 载入本地非结构化文档

from langchain.document_loaders import UnstructuredFileLoader
from langchain.document_loaders import PyPDFLoader

# 加载所有非结构化文件，提取文本
loaders = [
    PyPDFLoader('car.pdf'),
    PyPDFLoader('carbon.pdf')
]
# loaders = [
#     UnstructuredFileLoader('思修2018.txt'),
#     UnstructuredFileLoader('近代史2018.txt'),
#     PyPDFLoader('马原2023.pdf'),
#     PyPDFLoader('毛概2023.pdf')
# ]

# 把每个非结构化文件存入docs列表，并保存了对应出处
docs = []
for loader in loaders:
    docs.extend(loader.load())

2. 文档split为若干chunk文本块

from langchain.text_splitter import CharacterTextSplitter

text_splitter = CharacterTextSplitter(chunk_size=300, chunk_overlap=30, separator='\n')
splits = text_splitter.split_documents(docs)
print(len(splits))

3. 文本Embedding-->Vectors

from langchain.embedding import HuggingFaceEmbeddings

embedding_model = 'moka-ai/m3e-base'
embedding = HuggingFaceEmbeddings(model_name=embedding_model)

4. 存入向量数据库（以FAISS为例，常见向量数据库还有Milvus）

from langchain.vectorstores import FAISS

# 提取每个chunk文本块的Embedding向量，构建知识库文本-向量数据库
vector_store = FAISS.from_documents(splits, embeddings)

5. Query查询（用户提问）

query = '政府发布了哪些双碳政策文件'

# 针对query进行相似性搜索，从知识向量库（FAISS）检索出最相似的TOP K个Chunk
K = 5
docs_and_scores = vector_store.similarity_search_with_score(question, k=K)
print(docs_and_scores)


# 打印TOP K Chunk的来源、字数、和query相似度打分
for i in range(docs_and_scores):
    source = docs_and_scores[i][0].metadata['source']
    content = docs_and_scores[i][0].page_content
    similarity = docs_and_scores[i][1]
    print(f'来源：{source}，      字数：{len(content)}，      相似度打分：{similarity}')
    print(content[:30]+'......')
    print('————————————————————————————————————')

图5

6. Prompt合成

# 6.1. 生成背景内容(Top K个相似内容拼接)
context = ''
for i in docs_and_scores:
    context +=doc[0].page_content
    context +='\n'
print(context)

# 6.2. 生成提示词
prompt = f'你是一个学习助手，请根据下面的已知信息回答问题，你只需要回答和已知信息相关的问题，如果问题和已知信息不相关，你可以直接回答"不知道" 问题：{query} 已知信息:{context}'

图6

7. 调用LLM模型，实现答案生成任务（以文心大模型为例）

import requests

class BaiduErnie:
    host: str = "https://aip.baidubce.com"
    client_id: str = ""
    client_secret: str = ""
    access_token: str = ""

    def __init__(self, client_id: str, client_secret: str):
        self.client_id = client_id
        self.client_secret = client_secret
        self.get_access_token()

    def get_access_token(self) -> str:
        url = f"{self.host}/oauth/2.0/token?grant_type=client_credentials&client_id={self.client_id}&client_secret={self.client_secret}"
        response = requests.get(url)
        if response.status_code == 200:
            self.access_token = response.json()["access_token"]
            return self.access_token
        else:
            raise Exception("获取access_token失败")

    def chat(self, messages: list, user_id: str) -> tuple:
        if not self.access_token:
            self.get_access_token()
        url = f"{self.host}/rpc/2.0/ai_custom/v1/wenxinworkshop/chat/eb-instant?access_token={self.access_token}"
        data = {"messages": messages, "user_id": user_id}
        response = requests.post(url, json=data)
        if response.status_code == 200:
            resp = response.json()
            return resp["result"], resp
        else:
            raise Exception("请求失败")


# 填入文心大模型后台的API信息
# 获取地址： https://console.bce.baidu.com/ai/?_=1711963019980#/ai/intelligentwriting/overview/index
client_id = ""       # 自己的client_id
client_secret = ""   # 自己的client_secret
user_id = ""         # 自己的user_id
baidu_ernie = BaiduErnie(client_id, client_secret)

def chat(prompt):
    messages = []
    messages.append({"role": "user", "content": prompt})
    result, response = baidu_ernie.chat(messages, user_id)
    return result
result = chat('你是哪家公司开发的什么大语言模型？')
print(result)
# result：我是百度公司开发的知识增强语言模型，能够与人对话互动，回答问题，协助创作，高效便捷地帮助人们获取信息、知识和灵感。

8. RAG流程封装（将提示词Prompt输入给文心大模型，获得输出结

果）

def predict(query):
    docs_and_scores = vector_store.similarity_search_with_score(query, k=K)

    context = ''
    for doc in docs_and_scores:
        context +=doc[0].page_content
        context +='\n'

        prompt = '你是一个学习助手，请根据下面的已知信息回答问题，你只需要回答和已知信息相关的问题，如果问题和已知信息不相关，你可以直接回答"不知道" 问题：{} 已知信息:{}'.format(query, context)
        # 输入文心大模型
        result = chat(prompt)
        print(result)

predict('政府发布了哪些双碳政策文件')
# 根据政府发布的信息，中国提出了30·60“双碳”目标，并发布了《关于完整准确全面贯彻新发展理念做好碳达峰碳中和工作的意见》和《2030年前碳达峰行动方案》等纲领性文件，以保障目标的实现。中国作为全球第二大经济体，始终高度关注气候变化对国家和社会的影响。