AI网络爬虫008：无限下拉滚动页面的另类爬取方法

翰墨之道

于 2024-07-04 05:19:41 发布

阅读量99

点赞数 3

分类专栏： GPT开发、GPT应用专栏文章标签：人工智能爬虫 python AI网络爬虫无限下拉滚动页面另类爬取方法爬取方法

本文链接：https://blog.csdn.net/LuckyHanMo/article/details/140167836

版权

GPT开发、GPT应用专栏专栏收录该内容

81 篇文章 0 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

文章目录

一、介绍
二、输入内容
三、输出内容

一、介绍

现在很多网页都是无限下拉滚动的。可以拉动到底部，然后保存网页为mhtml格式文件。

在这里插入图片描述

二、输入内容

在ChatGPT中输入提示词：

你是一个Python编程高手，要完成一个关于爬取网页内容的Python脚本的任务，下面是具体步骤：

在f盘新建一个Excel文件：poe热门bot.xlsx；

用Pyppeteer库的无界面模式模拟用户打开本地的网页文件："F:\AI自媒体内容\AI行业数据分析\探索 - Poe.mhtml"；

解析源代码；

定位 class="InfiniteScroll_container__PHsd4 ExploreBotsPagedList_infiniteScroll__000mi"的div标签；

定位div标签里面的所有a标签，提取其href属性值，这是bot的URL地址，写入Excel文件的第4列；

定位a标签里面class<