LlamaIndex 大模型集成实战：从单模调用到多模态交互的全攻略-CSDN博客

本文链接：https://blog.csdn.net/The_Thieves/article/details/148497704

在开发大语言模型（LLM）应用时，我们常面临「模型选型难、集成成本高、功能扩展复杂」等问题。LlamaIndex 作为一款开源框架，通过统一接口和模块化设计，让我们能轻松驾驭多种 LLM—— 从 OpenAI 的 GPT 系列到本地部署的 Llama 3，甚至是支持图像、音频的多模态模型。今天我们就来聊聊如何用 LlamaIndex 实现「一键切换模型、灵活扩展功能」的开发体验。

一、模型调用自由：一行代码切换不同 LLM

场景痛点：
想对比 GPT-4 与开源模型的回答差异？或因成本考虑需要在生产环境切换至本地模型？
LlamaIndex 的统一接口让模型替换像「换插件」一样简单。

1. 快速接入 OpenAI 模型

python

# 安装依赖  
pip install llama-index-llms-openai  

# 一行代码调用GPT-4o-mini  
from llama_index.llms.openai import OpenAI  
llm = OpenAI(model="gpt-4o-mini")  
response = llm.complete("William Shakespeare is ")  
print(response)  # 输出："an English playwright, poet, and actor..."

2. 无缝切换至本地模型（以 Ollama 为例）

python

# 启动本地模型：ollama run llama3.3  
from llama_index.llms.ollama import Ollama  
llm = Ollama(  
    model="llama3.3",        # 本地部署的Llama 3模型  
    context_window=8000,     # 手动设置上下文窗口避免内存溢出  
    streaming=True           # 启用流式响应提升实时性  
)  
response = llm.complete("Tell me about AI development trends in 2024.")

核心优势：

无需修改业务逻辑代码，只需更换 LLM 实例
支持同步 / 异步调用（complete/acomplete），适配高并发场景

二、聊天界面深度定制：从单轮到多模态交互

场景痛点：
传统问答接口难以处理复杂对话逻辑，如多轮追问、上下文记忆、富媒体输入。
LlamaIndex 的chat方法支持自定义消息链，轻松实现智能客服、知识问答等场景。

1. 基础多轮对话

python

from llama_index.core import ChatMessage  

messages = [  
    ChatMessage(role="system", content="你是一位历史老师"),  
    ChatMessage(role="user", content="介绍罗马帝国的兴衰"),  
]  
response = llm.chat(messages)  
print(response.message.content)  # 输出罗马帝国概述  

# 追问细节  
messages.append(ChatMessage(role="user", content="其灭亡的主要原因有哪些？"))  
response = llm.chat(messages)  # 自动关联上文

2. 多模态消息处理（文本 + 图像）

python

from llama_index.core.llms import ImageBlock, TextBlock  

# 发送包含图片的查询  
messages = [  
    ChatMessage(  
        role="user",  
        blocks=[  
            ImageBlock(path="ancient_rome_map.png"),  # 图像块  
            TextBlock(text="描述图片中罗马帝国的疆域范围"),  # 文本块  
        ]  
    )  
]  
response = llm.chat(messages)  
print(response.message.content)  # 输出基于图片的疆域分析

技术要点：

消息链支持system/user/assistant角色，精准控制 LLM 行为
多模态块（ImageBlock/AudioBlock）自动适配支持的模型（如 GPT-4o）

三、工具调用进阶：LLM 与业务逻辑的深度融合

场景痛点：
LLM 无法直接操作数据库、调用 API？通过 LlamaIndex 的工具调用能力，可将业务函数无缝集成到 LLM 决策链。

1. 函数工具快速集成

python

from llama_index.core.tools import FunctionTool  

# 定义业务函数：生成歌曲  
def generate_song(name: str, artist: str) -> dict:  
    """根据名称和艺术家生成歌曲信息"""  
    return {"song_name": name, "artist": artist, "genre": "pop"}  

tool = FunctionTool.from_defaults(fn=generate_song)  
llm = OpenAI(model="gpt-4o")  

# LLM自动决定调用工具  
response = llm.predict_and_call(  
    [tool],  
    "推荐一首适合跑步的流行歌曲"  
)  
print(response)  # 输出：{"song_name": "Uptown Funk", "artist": "Mark Ronson"...}

2. 多工具协同流程

python

# 定义天气查询工具  
def get_weather(city: str) -> str:  
    """获取城市天气"""  
    return f"{city}今天晴，气温22-30℃"  

tools = [FunctionTool.from_defaults(fn=generate_song), FunctionTool.from_defaults(fn=get_weather)]  
response = llm.predict_and_call(  
    tools,  
    "推荐一首上海今天适合听的歌曲"  
)  
# LLM逻辑：先查上海天气→根据结果推荐轻快歌曲

关键能力：

工具调用无需人工解析 JSON，LLM 自动处理参数映射
支持 Anthropic、Gemini 等多模型的原生工具调用协议

四、生产级实践：模型选型与成本优化

1. 模型选型对照表

模型类型	代表模型	优势场景	成本（每 1K tokens）
云端 API 模型	GPT-4o	高实时性、多模态	$0.03-0.12
开源本地模型	Llama 3.3	数据隐私、低成本	$0（仅计算资源）
轻量级模型	Mistral-7B	边缘设备、快速响应	$0