【保姆级教程】爬取网站上“气候变化”关键词新闻个数

阿黎逸阳

于 2024-05-12 15:49:04 发布

阅读量1k

点赞数 28

文章标签： python 学习python 爬虫

本文链接：https://blog.csdn.net/qq_32532663/article/details/138757098

版权

本文详述如何使用Python爬虫，结合selenium库，从北京千龙网上抓取包含‘气候变化’关键词的新闻标题并统计数量。教程包括导入库、设定目标网站与关键词、获取单页及所有页面的新闻标题，最终实现动态抓取并统计新闻总数。

摘要由CSDN通过智能技术生成

大学关系很好的老师想获取新闻中带“气候变化”关键词的新闻个数，用于论文写作。在空余时间研究了一下，解决了许多小bug后终于实现啦。具体的实施步骤是：明确爬取目标网站——明确爬取关键词——单页新闻标题获取——批量新闻标题获取——把新闻标题存到list中统计数量。本文以北京的千龙网为例进行说明，希望代码能帮到更多有需要的小伙伴。

文章目录

一、导入库

首先导入需要用到的库，具体如下：

import time
import random
from captcha import * 
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support import wait
from selenium.webdriver.common.keys import Keys
from selenium.common.exceptions import NoSuchElementException
from selenium.webdriver.common.action_chains import ActionChains
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.ui import WebDriverWait
from webdriver_manager.chrome import ChromeDriverManager
from selenium.common.exceptions import NoSuchElementException
from selenium.webdriver.common.action_chains import ActionChains
from selenium.webdriver.support import expected_conditions as EC

如有未安装库的小伙伴，自行百度安装一下。