langchain的基本使用

最新推荐文章于 2024-06-18 19:54:08 发布

写代码的中青年

最新推荐文章于 2024-06-18 19:54:08 发布

阅读量475

点赞数 11

分类专栏：大模型文章标签：语言模型 langchain 人工智能 chatgpt python

本文链接：https://blog.csdn.net/qq_43128256/article/details/137183004

版权

大模型专栏收录该内容

53 篇文章 15 订阅

订阅专栏

大模型相关目录

大模型，包括部署微调prompt/Agent应用开发、知识库增强、数据库增强、知识图谱增强、自然语言处理、多模态等大模型应用开发内容
从0起步，扬帆起航。

大模型应用向开发路径：AI代理工作流
大模型应用开发实用开源项目汇总
大模型问答项目问答性能评估方法
大模型数据侧总结
大模型token等基本概念及参数和内存的关系
大模型应用开发-华为大模型生态规划
从零开始的LLaMA-Factory的指令增量微调
基于实体抽取-SMC-语义向量的大模型能力评估通用算法（附代码）
基于Langchain-chatchat的向量库构建及检索（附代码）
一文教你成为合格的Prompt工程师
最简明的大模型agent教程
批量使用API调用langchain-chatchat知识库能力
langchin-chatchat部分开发笔记（持续更新）
文心一言、讯飞星火、GPT、通义千问等线上API调用示例
大模型RAG性能提升路径
langchain的使用

文章目录

简介

大模型开发框架，最基本、通用框架之一。

langchain六大组成：
1.模型，对模型的加载和使用。
2.提示词，不同的任务使用不同prompt，管理和优化这些prompt。
3.链，初步理解为具体任务中不同子任务之间的调用。
4.数据增强的生成，数据增强生成涉及特定类型的链，首先与外部数据源交互以获取数据用于生成步骤。对长篇文字的总结和对特定数据源的提问/回答——即RAG，可以理解数据增强为一种特殊的链。
5.代理，根据不同的指令采取不同的行动，直到整个流程完成为止。
6.内存：在整个流程中帮我们管理一些中间状态。

LangChain七大组件
1.model I/O：语言模型接口
2.data connection：与特定任务的数据接口
3.chains：构建调用序列
4.agents：给定高级指令，让链选择使用哪些工具
5.memory：在一个链的运行之间保持应用状态
6.callbacks：记录并流式传输任何链的中间步骤
7.indexes：索引指的是结构化文件的方法，以便LLM能够与它们进行最好的交互

加载模型及单次对话

import os
os.environ["OPENAI_API_KEY"] = '你的api key'


from langchain.llms import OpenAI

llm = OpenAI(model_name="text-davinci-003",max_tokens=1024)
llm("怎么评价人工智能")

文本切分

from langchain.document_loaders import UnstructuredFileLoader
from langchain.chains.summarize import load_summarize_chain
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain import OpenAI

# 导入文本
loader = UnstructuredFileLoader("/content/sample_data/data/lg_test.txt")
# 将文本转成 Document 对象
document = loader.load()
print(f'documents:{len(document)}')

# 初始化文本分割器
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size = 500,
    chunk_overlap = 0
)

# 切分文本
split_documents = text_splitter.split_documents(document)
print(f'documents:{len(split_documents)}')

# 加载 llm 模型
llm = OpenAI(model_name="text-davinci-003", max_tokens=1500)

# 创建总结链
chain = load_summarize_chain(llm, chain_type="refine", verbose=True)

# 执行总结链，（为了快速演示，只总结前5段）
chain.run(split_documents[:5])

RAG

from langchain.vectorstores import Chroma

# 持久化数据
docsearch = Chroma.from_documents(documents, embeddings, persist_directory="D:/vector_store")
docsearch.persist()

# 加载数据
docsearch = Chroma(persist_directory="D:/vector_store", embedding_function=embeddings)

############################################################

# 持久化数据
docsearch = Pinecone.from_texts([t.page_content for t in split_docs], embeddings, index_name=index_name)

# 加载数据
docsearch = Pinecone.from_existing_index(index_name, embeddings)


############################################################


from langchain.text_splitter import CharacterTextSplitter
from langchain.document_loaders import DirectoryLoader
from langchain.vectorstores import Chroma, Pinecone
from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.llms import OpenAI
from langchain.chains.question_answering import load_qa_chain

import pinecone

# 初始化 pinecone
pinecone.init(
  api_key="你的api key",
  environment="你的Environment"
)

loader = DirectoryLoader('/content/sample_data/data/', glob='**/*.txt')
# 将数据转成 document 对象，每个文件会作为一个 document
documents = loader.load()

# 初始化加载器
text_splitter = CharacterTextSplitter(chunk_size=500, chunk_overlap=0)
# 切割加载的 document
split_docs = text_splitter.split_documents(documents)

index_name="liaokong-test"

# 持久化数据
# docsearch = Pinecone.from_texts([t.page_content for t in split_docs], embeddings, index_name=index_name)

# 加载数据
docsearch = Pinecone.from_existing_index(index_name,embeddings)

query = "科大讯飞今年第一季度收入是多少？"
docs = docsearch.similarity_search(query, include_metadata=True)

llm = OpenAI(temperature=0)
chain = load_qa_chain(llm, chain_type="stuff", verbose=True)
chain.run(input_documents=docs, question=query)

Agent

from langchain.agents import initialize_agent, Tool
from langchain.agents import AgentType
from langchain.tools import BaseTool
from langchain.llms import OpenAI
from langchain import LLMMathChain, SerpAPIWrapper

llm = OpenAI(temperature=0)

# 初始化搜索链和计算链
search = SerpAPIWrapper()
llm_math_chain = LLMMathChain(llm=llm, verbose=True)

# 创建一个功能列表，指明这个 agent 里面都有哪些可用工具，agent 执行过程可以看必知概念里的 Agent 那张图
tools = [
    Tool(
        name = "Search",
        func=search.run,
        description="useful for when you need to answer questions about current events"
    ),
    Tool(
        name="Calculator",
        func=llm_math_chain.run,
        description="useful for when you need to answer questions about math"
    )
]

# 初始化 agent
agent = initialize_agent(tools, llm, agent=AgentType.ZERO_SHOT_REACT_DESCRIPTION, verbose=True)

# 执行 agent
agent.run("Who is Leo DiCaprio's girlfriend? What is her current age raised to the 0.43 power?")

写代码的中青年

关注

11
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
0
评论
langchain的基本使用

大模型开发框架，最基本、通用框架之一。langchain六大组成：1.模型，对模型的加载和使用。2.提示词，不同的任务使用不同prompt，管理和优化这些prompt。3.链，初步理解为具体任务中不同子任务之间的调用。4.数据增强的生成，数据增强生成涉及特定类型的链，首先与外部数据源交互以获取数据用于生成步骤。对长篇文字的总结和对特定数据源的提问/回答——即RAG，可以理解数据增强为一种特殊的链。5.代理，根据不同的指令采取不同的行动，直到整个流程完成为止。
复制链接

扫一扫