Python之 Http 获取网页的 html 数据,并去掉 html 格式等相关信息
目录
Python之 Http 获取网页的 html 数据,并去掉 html 格式等相关信息
一、简单介绍
本节简单介绍在 Python开发中的,使用 requests ,获取指定网页的相关信息,然后使用 BeautifulSoup 进行数据清洗,去掉html 格式,以及标签,函数,多余的空格等信息,仅留下和网页显示差不多的文字信息,为什么这么做呢,其实,这里一个使用场景:是把网页数据喂给GPT,然后让 GPT 进行处理总结;如果你有新的方式也可以留言,多谢。
二、实现原理
1、requests 获取指定网