LangChain之网络爬虫

泡椒竹笋面

已于 2024-08-14 14:54:54 修改

阅读量457

点赞数 7

文章标签： langchain 爬虫产品经理金融数学建模人工智能华为

于 2024-08-14 12:08:11 首次发布

本文链接：https://blog.csdn.net/kaka0722ww/article/details/141187592

版权

网络爬虫

概述

网络爬虫是LangChain中的一项关键功能，允许用户自动从互联网上收集信息。这项功能对于研究和数据收集尤其有价值，因为它可以大幅减少手动搜索和信息整理的工作量。

从网络收集内容有几个主要组件：

Search搜索：使用工具如GoogleSearchAPIWrapper查询并获取URL列表。

Loading加载：将URL转换为HTML内容，使用工具如AsyncHtmlLoader或AsyncChromiumLoader。

Transforming转换：将HTML内容转换为格式化文本，使用HTML2Text或BeautifulSoup等工具。

准备

安装相关依赖库

pip install langchain-openai langchain playwright beautifulsoup4

设置OpenAI的BASE_URL、API_Key

import os

os.environ["OPENAI_BASE_URL"] = "https://xxx.com/v1"
os.environ["OPENAI_API_KEY"] = "sk-dtRXRfYzHDZQT8Cr2874xxxx13F97bF24b7a"

加载器

使用Chromium的无头实例爬取HTML内容，无头模式意味着浏览器在没有图形用户界面的情况下运行，这通常用于网页抓取。

主要有2种方式：

方式	加载器	描述
Python的asyncio库	AsyncHtmlLoader	使用该库aiohttp发出异步 HTTP 请求，适合更简单、轻量级的抓取。
Playwright	AsyncChromiumLoader	使用 Playwright 启动 Chromium 实例，该实例可以处理 JavaScript 渲染和更复杂的 Web 交互。

注意：

Chromium 是 Playwright 支持的浏览器之一，Playwright 是一个用于控制浏览器自动化的库。

from langchain_community.document_loaders import AsyncChromiumLoader

# 加载HTML
loader = AsyncChromiumLoader(["https://www.langchain.com"])
html = loader.load()

转换

html2text

html2text 是一个 Python 包，它将 HTML 页面转换为干净、易于阅读的纯文本，无需任何特定的标签操作。它最适合目标是提取人类可读文本而不需要操作特定HTML元素的场景。

要使用html2text，首先需要额外安装

pip install html2text

使用示例如下：

from langchain_community.document_loaders import AsyncChromiumLoader
from langchain_community.document_transformers import Html2TextTransformer

# 加载HTML
loader = AsyncChromiumLoader(["https://www.langchain.com"])
html = loader.load()

# # 转换
html2text = Html2TextTransformer()
docs_transformed = html2text.transform_documents(html)

# 结果
res = docs_transformed[0].page_content[0:500]
print(res)

Beautiful Soup

Beautiful Soup 提供对 HTML 内容更细粒度的控制，支持特定标签的提取、删除和内容清理。它适合根据需要提取特定信息并清理 HTML 内容的情况。

要使用Beautiful Soup，首先也是需要安装

pip install beautifulsoup4

使用示例如下

from langchain_community.document_loaders import AsyncChromiumLoader
from langchain_community.document_transformers import BeautifulSoupTransformer
# 加载HTML
loader = AsyncChromiumLoader(["https://www.langchain.com"])
html = loader.load()

# # 转换
bs_transformer = BeautifulSoupTransformer()
docs_transformed = bs_transformer.transform_documents(html, tags_to_extract=["h1"])

# 结果
res = docs_transformed[0].page_content[0:500]
print(res)

从HTML内容中爬取文本内容标签说明

<p>：段落标签。在HTML中定义段落，并用于组合相关句子或短语

<li>：列表项标签。用于有序（<ol>）和无序（<ul>）列表中，定义列表中的各个项

<div>：分区标签。块级元素，用于组合其他内联或块级元素

<a>：锚点标签。用于定义超链接

<span>：内联容器，用于标记文本的一部分或文档的一部分

提取

定义模式、架构来指定想要提取的数据类型。键名很重要，因为它告诉 LLM想要什么样的信息。

# 定义模式、架构来指定想要提取的数据类型
schema = {
    "properties": {
        "all_tutorial_category": {"type": "string"},
        "category_item": {"type": "string"},
    },
    "required": ["all_tutorial_category"],
}

提取网页内容的爬虫实现如下

from langchain_community.document_loaders import AsyncChromiumLoader
from langchain_community.document_transformers import BeautifulSoupTransformer
from langchain_openai import ChatOpenAI
from langchain.text_splitter import RecursiveCharacterTextSplitter

llm = ChatOpenAI(temperature=0, model="gpt-3.5-turbo-0613")
from langchain.chains import create_extraction_chain

# 定义模式、架构来指定想要提取的数据类型
schema = {
    "properties": {
        "category_item": {"type": "string"},
    },
    "required": ["category_item"],
}

# 执行提取链
def extract(content: str, schema: dict):
    return create_extraction_chain(schema=schema, llm=llm).invoke(content)

# 使用AsyncChromiumLoader加载器
def scrape_with_playwright(urls, schema):
    loader = AsyncChromiumLoader(urls)
    docs = loader.load()
    bs_transformer = BeautifulSoupTransformer()
    # 限制爬取指定标签内容
    docs_transformed = bs_transformer.transform_documents(docs, tags_to_extract=["h4"])
    print("使用 LLM 提取内容")

    # 获取网站的前 1000 个token文本
    splitter = RecursiveCharacterTextSplitter.from_tiktoken_encoder(
        chunk_size=1000, chunk_overlap=0
    )
    splits = splitter.split_documents(docs_transformed)

    # 拆分处理
    extracted_content = extract(schema=schema, content=splits[0].page_content)
    # 打印内容
    # pprint.pprint(extracted_content)
    return extracted_content

if __name__ == '__main__':
    urls = ["https://www.runoob.com/"]
    extracted_content = scrape_with_playwright(urls, schema=schema)
    print(extracted_content)

执行部分日志如下，可以看出数据提前成功

text': [{'category_item': 'HTML'}, {'category_item': 'CSS'}, {'category_item': 'Bootstrap'},
{'category_item': 'Font Awesome'}, {'category_item': 'Foundation'}, {'category_item': 'JavaScript'},
{'category_item': 'HTML DOM'}, {'category_item': 'jQuery'}, 

........

{'category_item': 'Markdown'}, {'category_item': 'HTTP'}, 
{'category_item': 'TCP/IP'}, {'category_item': 'W3C'}]}

自动化

可以使用检索器（如WebResearchRetriever）来自动化网络研究过程，以便使用搜索内容回答特定问题。在这里插入图片描述

借助Google的Custom Search JSON API，以程序化地检索和显示来自可编程搜索引擎的搜索结果。，具体阅读文档创建GOOGLE_API_KEY和GOOGLE_CSE_ID

自动化爬取实现如下

from langchain.retrievers.web_research import WebResearchRetriever
from langchain_chroma import Chroma
from langchain_community.utilities import GoogleSearchAPIWrapper
from langchain_openai import ChatOpenAI, OpenAIEmbeddings
import logging
from langchain.chains import RetrievalQAWithSourcesChain

import os

os.environ["GOOGLE_API_KEY"] = 'AIzaSyBNrdu0_xxxxx-Vk2nDs'
os.environ["GOOGLE_CSE_ID"] = '405fxxxxxx64ca1'

# 向量存储：使用 Chroma 客户端进行初始化
vectorstore = Chroma(
    embedding_function=OpenAIEmbeddings(), persist_directory="./chroma_db_oai"
)

# LLM
llm = ChatOpenAI(temperature=0)

# 搜索
search = GoogleSearchAPIWrapper()

"""
使用上述工具初始化检索器：

使用 LLM 生成多个相关搜索查询（一次 LLM 调用）
对每个查询执行搜索
选择每个查询的前 K 个链接（并行多个搜索调用）
从所有选定的链接加载信息（并行抓取页面）
将这些文档索引到矢量存储中
为每个原始生成的搜索查询查找最相关的文档
"""
web_research_retriever = WebResearchRetriever.from_llm(
    vectorstore=vectorstore, llm=llm, search=search
)

# 设置日志
logging.basicConfig()
logging.getLogger("langchain.retrievers.web_research").setLevel(logging.INFO)

# 执行
user_input = "菜鸟教程网站有那些教程分类?"
qa_chain = RetrievalQAWithSourcesChain.from_chain_type(
    llm, retriever=web_research_retriever
)
result = qa_chain.invoke({"question": user_input})
print(result)

输出结果如下在这里插入图片描述

那么，如何系统的去学习大模型LLM？

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

作为一名热心肠的互联网老兵，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

所有资料 ⚡️ ，朋友们如果有需要全套《LLM大模型入门+进阶学习资源包》，扫码获取~

篇幅有限，部分资料如下：

👉LLM大模型学习指南+路线汇总👈

💥大模型入门要点，扫盲必看！
在这里插入图片描述
💥既然要系统的学习大模型，那么学习路线是必不可少的，这份路线能帮助你快速梳理知识，形成自己的体系。

👉大模型入门实战训练👈

💥光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。
在这里插入图片描述

👉国内企业大模型落地应用案例👈

💥《中国大模型落地应用案例集》 收录了52个优秀的大模型落地应用案例，这些案例覆盖了金融、医疗、教育、交通、制造等众多领域，无论是对于大模型技术的研究者，还是对于希望了解大模型技术在实际业务中如何应用的业内人士，都具有很高的参考价值。 （文末领取）
在这里插入图片描述
💥《2024大模型行业应用十大典范案例集》 汇集了文化、医药、IT、钢铁、航空、企业服务等行业在大模型应用领域的典范案例。