前置准备
用讯飞大模型3.5搭建好应用,具体操作可以看我的这篇:讯飞星火大模型API,实名认证免费领一年有效期的200万Token,在控制台的左侧有星火知识库,实名认证过就可以开通免费的部分。用这个纯粹是因为免费,关于这个大模型的使用体验啥的不做评价,大家可以也选择自己喜欢的其他模型,如使用其他模型则下文代码中的API接口调用部分需要自行根据所选模型的文档说明进行调整
文档准备
爬虫demo爬取的百度百科——藜麦数据,这个的demo有bug,百度百科网页的class_隔一段时间会变,如果执行报错了就打开百度百科——藜麦数据的网页源码找到这一段内容的类名替换即可,不会操作的话可以留言我出教程。(因为我还没学过这块所以只会替换类名这样的傻瓜式操作,如果有更好的方法感谢各位大佬的指点)
#文档准备
import requests
from bs4 import BeautifulSoup
url = "https://baike.baidu.com/item/%E8%97%9C%E9%BA%A6/5843874"
response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")
# 获取词条名称
title = soup.find("div", class_="lemmaTitleBox_dR4Nr").find("h1").text
summary_list = soup.find('div', class_='J-lemma-content').find_all('div',class_='para_VW7X7 content_V8j6o MARK_MODULE')
print('词条:'+ title)
print('简介:')
with open("./藜.txt","w") as file: ##打开读写文件,逐行将列表读入文件内
for summary in summary_list:
file.write(summary.text+"\n\n")
print(summary.text)
文档上传
# -*- coding:utf-8 -*-
import hashlib
import base64
import hmac
import time
import random
from urllib.parse import urlencode
import json
import requests
from requests_toolbelt.multipart.encoder import MultipartEncoder
class Document_Upload:
def __init__(self, APPId, APISecret, timestamp):
self.APPId = APPId
self.APISecret = APISecret
self.Timestamp = timestamp
def get_origin_signature(self):
m2 = hashlib.md5()
data = bytes(self.APPId + self.Timestamp, encoding="utf-8")
m2.update(data)
checkSum = m2.hexdigest()
return checkSum
def get_signature(self):
# 获取原始签名
signature_origin = self.get_origin_signature()
# 使用加密键加密文本
signature = hmac.new(self.APISecret

最低0.47元/天 解锁文章
496

被折叠的 条评论
为什么被折叠?



