爬虫学习任务笔记概要（第四次）--实战某新闻爬取项目含代码

最新推荐文章于 2024-08-18 15:31:51 发布

SilverStar108

最新推荐文章于 2024-08-18 15:31:51 发布

阅读量323

点赞数 1

分类专栏：爬虫文章标签：其他

本文链接：https://blog.csdn.net/Riolu/article/details/105778202

版权

本次学习任务涉及ajax加载研究，通过chrome开发者工具触发请求获取数据，并利用selenium模拟浏览器操作。数据解析借助beautiful soup4，最终将数据存储为csv文件。感谢FlyApple同学的指导和助教老师及同学们的帮助。

摘要由CSDN通过智能技术生成

大作业要求：

1、了解ajax加载
2、通过chrome开发工具，触发请求，并获取数据
3、用到selenium库
在这里插入图片描述

思路如下：

1、用selenium模拟浏览器操作，获得ul/li下面的data
2、用beautiful soup4解析缓存下来的data
3、加载pandas库，将data导出至csv文件

import time
from  selenium import webdriver
driver=webdriver.Chrome(executable_path="C:\Program Files\Anaconda3\chromedriver.exe")
driver.get("https://news.qq.com")
#进程挂起时间2s
for i in range(1,50):
    time.sleep(2)
    driver.execute_script