【代码片段】【Python】Html元素瘦身代码，助力大模型自动生成爬虫程序

同学小张

于 2024-01-30 12:54:38 发布

阅读量311

点赞数 2

分类专栏： python 代码片段文章标签： python html 爬虫笔记经验分享

本文链接：https://blog.csdn.net/Attitude93/article/details/135820656

版权

python 同时被 2 个专栏收录

40 篇文章 6 订阅

订阅专栏

代码片段

9 篇文章 0 订阅

订阅专栏

现在可以使用大模型帮我们写爬虫代码了。要想让大模型写爬虫代码，我们需要给大模型几个网页元素的例子。而一般网页元素中的数据非常多，会对大模型造成干扰，甚至超过大模型的token限制，导致大模型无法生成正确的爬虫程序。

这时候，我们可以通过下面的代码对Html内容进行精简（不用懂原理，直接用就行，通用的，这个代码的作用是挑选出Html中的css元素，用css元素足以定位html里的元素）

在此记录下，拿来即用。

from bs4 import BeautifulSoup

with open("D:\GitHub\MyMetaGPT\ddd.html") as f: ## 这里改成你粘贴下来的元素的html文件
    html = f.read()

soup = BeautifulSoup(html, "html.parser")
for i in soup.find_all(True):
    for name in list(i.attrs):
        if i[name] and name not in ["class"]:
            del i[name]

for i in soup.find_all(["svg", "img", "video", "audio"]):
    i.decompose()

with open("D:\GitHub\MyMetaGPT\ddd_after.html", "w") as f: ## 这里改成你想要的输出文件，可以与上面处理的html文件相同
    f.write(str(soup))