现在可以使用大模型帮我们写爬虫代码了。要想让大模型写爬虫代码,我们需要给大模型几个网页元素的例子。而一般网页元素中的数据非常多,会对大模型造成干扰,甚至超过大模型的token限制,导致大模型无法生成正确的爬虫程序。
这时候,我们可以通过下面的代码对Html内容进行精简(不用懂原理,直接用就行,通用的,这个代码的作用是挑选出Html中的css元素,用css元素足以定位html里的元素)
在此记录下,拿来即用。
from bs4 import BeautifulSoup
with open("D:\GitHub\MyMetaGPT\ddd.html") as f: ## 这里改成你粘贴下来的元素的html文件
html = f.read()
soup = BeautifulSoup(html, "html.parser")
for i in soup.find_all(True):
for name in list(i.attrs):
if i[name] and name not in ["class"]:
del i[name]
for i in soup.find_all(["svg", "img", "video", "audio"]):
i.decompose()
with open("D:\GitHub\MyMetaGPT\ddd_after.html", "w") as f: ## 这里改成你想要的输出文件,可以与上面处理的html文件相同
f.write(str(soup))