【浅学】星火知识库文档检索生成问答Demo实测

原创

已于 2025-04-17 13:23:38 修改 · 1.3k 阅读

18 ·

CC 4.0 BY-SA版权

文章标签：

#python #人工智能

于 2024-03-26 17:49:53 首次发布

前置准备

用讯飞大模型3.5搭建好应用，具体操作可以看我的这篇：讯飞星火大模型API，实名认证免费领一年有效期的200万Token，在控制台的左侧有星火知识库，实名认证过就可以开通免费的部分。用这个纯粹是因为免费，关于这个大模型的使用体验啥的不做评价，大家可以也选择自己喜欢的其他模型，如使用其他模型则下文代码中的API接口调用部分需要自行根据所选模型的文档说明进行调整

文档准备

爬虫demo爬取的百度百科——藜麦数据，这个的demo有bug，百度百科网页的class_隔一段时间会变，如果执行报错了就打开百度百科——藜麦数据的网页源码找到这一段内容的类名替换即可，不会操作的话可以留言我出教程。(因为我还没学过这块所以只会替换类名这样的傻瓜式操作，如果有更好的方法感谢各位大佬的指点)

#文档准备
import requests
from bs4 import BeautifulSoup

url = "https://baike.baidu.com/item/%E8%97%9C%E9%BA%A6/5843874"
response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")

# 获取词条名称
title = soup.find("div", class_="lemmaTitleBox_dR4Nr").find("h1").text

summary_list = soup.find('div', class_='J-lemma-content').find_all('div',class_='para_VW7X7 content_V8j6o MARK_MODULE')

print('词条：'+ title)
print('简介：')

with open("./藜.txt","w") as file:    ##打开读写文件，逐行将列表读入文件内
    for summary in summary_list:
        file.write(summary.text+"\n\n")
        print(summary.text)

文档上传

# -*- coding:utf-8 -*-
import hashlib
import base64
import hmac
import time
import random
from urllib.parse import urlencode
import json
import requests
from requests_toolbelt.multipart.encoder import MultipartEncoder

class Document_Upload:
    def __init__(self, APPId, APISecret, timestamp):
        self.APPId = APPId
        self.APISecret = APISecret
        self.Timestamp = timestamp

    def get_origin_signature(self):
        m2 = hashlib.md5()
        data = bytes(self.APPId + self.Timestamp, encoding="utf-8")
        m2.update(data)
        checkSum = m2.hexdigest()
        return checkSum


    def get_signature(self):
        # 获取原始签名
        signature_origin = self.get_origin_signature()
        # 使用加密键加密文本
        signature = hmac.new(self.APISecret