一、介绍
现在很多网页都是无限下拉滚动的。可以拉动到底部,然后保存网页为mhtml格式文件。
二、输入内容
在ChatGPT中输入提示词:
你是一个Python编程高手,要完成一个关于爬取网页内容的Python脚本的任务,下面是具体步骤:
在f盘新建一个Excel文件:poe热门bot.xlsx;
用Pyppeteer库的无界面模式模拟用户打开本地的网页文件:"F:\AI自媒体内容\AI行业数据分析\探索 - Poe.mhtml";
解析源代码;
定位 class="InfiniteScroll_container__PHsd4 ExploreBotsPagedList_infiniteScroll__000mi"的div标签;
定位div标签里面的所有a标签,提取其href属性值,这是bot的URL地址,写入Excel文件的第4列;
定位a标签里面class<