GraphRAG 替换本地模型报错解决思路

create_base_entity_graph 报错解决

如果有人在更换大模型为本地模型的过程中,碰到类似

ERROR Error executing verb “cluster_graph” in
create_base_entity_graph: EmptyNetworkError

的问题,可以参考 graphrag issue 515 的解决方案,具体而言,就是将

graphrag/prompt_tune/prompt/entity_relationship.py

  1. Return output in {language} as a single list of all the entities and relationships identified in steps 1 and 2. Use **{{record_delimiter}}** as the list delimiter.

这句 prompt record_delimeter 周边的 ** 删除。

然后就能正常运行了,感觉是本地小模型的理解能力不足,出现的这个问题

模型本地替换

本地替换的 LLM 是 GLM4-1M-Chat,替换的 embedding-model 是 bge-base-en-v1.5。
具体而言,如果要继续使用 openai-API 调用的形式,需要把 LLM 和 embedding-model 都封装成 openai-API 调用。

封装方法

LLM: LLM 可以使用 llama-factory 的方式封装为 openai API 服务,具体而言命令为 llamafactory-cli api examples/inference/glm_vllm.yaml,同时在 src/llamafactory/api/app.py 中修改 端口号 为自定义端口号即可,具体而言,glm_vllm.yaml 可以如下写

model_name_or_path: <YourModelPath>
template: llama3
infer_backend: vllm
vllm_enforce_eager: true

embedding_model:embedding_model 可以使用 fastchat 封装为 openai API 服务,这里使用的 fschat 版本为 0.2.35,运行具体而言,可以参考如下 shell 配置

#!/bin/bash

python -m fastchat.serve.controller --host 0.0.0.0 --port 21003 > <YourLogFile> 2>&1 &

python -m fastchat.serve.model_worker --model-path <YourModelPath> --model-names <YourModelName, better use gpt-4> --num-gpus 2 --controller-address http://0.0.0.0:21003 > <YourLogFile> 2>&1 &

python -m fastchat.serve.openai_api_server --host 0.0.0.0 --port <YourServicePort> --controller-address http://0.0.0.0:21003

GraphRAG 项目 settings.yaml 配置

在生成 ragtest 等目录后的 settings.yaml 的文件中,主要需要修改以下两处配置

  1. llm:需要将 api_base 替换为自己的服务地址和端口
  2. embeddings:需要将 api_base 替换为自己的服务地址和端口,同时注意这里的模型名称最好选择 gpt-4
llm:
  api_key: ${GRAPHRAG_API_KEY}
  type: openai_chat # or azure_openai_chat
  model: gpt-4
  model_supports_json: false # recommended if this is available for your model.
  # max_tokens: 4000
  # request_timeout: 180.0
  api_base: http://<IP:Port>/v1
  # api_version: 2024-02-15-preview
  # organization: <organization_id>
  # deployment_name: <azure_model_deployment_name>
  # tokens_per_minute: 150_000 # set a leaky bucket throttle
  # requests_per_minute: 10_000 # set a leaky bucket throttle
  # max_retries: 10
  # max_retry_wait: 10.0
  # sleep_on_rate_limit_recommendation: true # whether to sleep when azure suggests wait-times
  concurrent_requests: 2 # the number of parallel inflight requests that may be made
  # temperature: 0 # temperature for sampling
  top_p: 0.9 # top-p sampling
  # n: 1 # Number of completions to generate

parallelization:
  stagger: 0.3
  # num_threads: 50 # the number of threads to use for parallel processing

async_mode: threaded # or asyncio

embeddings:
  ## parallelization: override the global parallelization settings for embeddings
  async_mode: threaded # or asyncio
  llm:
    api_key: ${GRAPHRAG_API_KEY}
    type: openai_embedding # or azure_openai_embedding
    model: gpt-4
    api_base: http://<IP:Port>/v1
    # api_version: 2024-02-15-preview
    # organization: <organization_id>
    # deployment_name: <azure_model_deployment_name>
    # tokens_per_minute: 150_000 # set a leaky bucket throttle
    # requests_per_minute: 10_000 # set a leaky bucket throttle
    # max_retries: 10
    # max_retry_wait: 10.0
    # sleep_on_rate_limit_recommendation: true # whether to sleep when azure suggests wait-times
    concurrent_requests: 1 # the number of parallel inflight requests that may be made
    # batch_size: 16 # the number of documents to send in a single request
    # batch_max_tokens: 8191 # the maximum number of tokens to send in a single request
    # target: required # or optional

实测这里的 api_key 不会有影响,以防万一可以在 .env 中修改 GRAPHRAG_API_KEYno-api-key


如此,完成了整体的模型替换,但是需要注意本地小模型的理解能力有限,在 global 查询的时候经常出现 Json 格式上的不同。

  • 9
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
智慧校园建设方案旨在通过信息化手段提升教育、管理和服务水平,实现资源数字化、工作流程化、管理高效化和决策智能化。方案包括智慧校园信息化平台和安防平台的建设,涉及教学、科研、管理和服务等多个方面,以满足现代教育和培训需求。 技术服务要求强调了统一支撑平台的建设,包括数据标准、接口标准、代码标准和用户信息标准的统一制定。平台需满足信创和X86交叉适配要求,确保安全自主可控的系统开发环境。此外,方案还涵盖了用户中心系统、统一认证授权中心、统一工作流中心、统一智能报表中心等多个模块,以及数据共享中心、语音识别、移动服务终端等功能,以实现校园内外部信息的互联互通和资源共享。 智慧校园信息化平台的建设还包括了对教学管理、人事管理、公文管理、档案管理、即时通讯、会议管理、督办工作、资产管理等方面的数字化和自动化升级。这些模块的集成旨在提高工作效率,优化资源配置,加强监督管理,并通过移动应用等技术手段,实现随时随地的信息访问和业务处理。 安防平台的建设则侧重于校园安全,包括停车场管理、人脸识别测温、访客自助登记、视频监控等多个系统。这些系统的集成旨在提高校园的安全管理水平,实现对校园内外人员和车辆的有效监控和管理,确保校园环境的安全稳定。 最后,方案还提到了对固定资产的管理,包括购置、使用、归还、报废等全生命周期的管理,以及对网络设备、安防设备、服务器等硬件设施的配置和管理。通过这些措施,智慧校园建设方案旨在为校园提供一个安全、高效、便捷的学习和工作环境。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值