【保姆级教程】爬取网站上“气候变化”关键词新闻个数

本文详述如何使用Python爬虫,结合selenium库,从北京千龙网上抓取包含‘气候变化’关键词的新闻标题并统计数量。教程包括导入库、设定目标网站与关键词、获取单页及所有页面的新闻标题,最终实现动态抓取并统计新闻总数。
摘要由CSDN通过智能技术生成

大学关系很好的老师想获取新闻中带“气候变化”关键词的新闻个数,用于论文写作。在空余时间研究了一下,解决了许多小bug后终于实现啦。具体的实施步骤是:明确爬取目标网站——明确爬取关键词——单页新闻标题获取——批量新闻标题获取——把新闻标题存到list中统计数量。本文以北京的千龙网为例进行说明,希望代码能帮到更多有需要的小伙伴。

  

一、导入库

  
首先导入需要用到的库,具体如下:

import time
import random
from captcha import * 
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support import wait
from selenium.webdriver.common.keys import Keys
from selenium.common.exceptions import NoSuchElementException
from selenium.webdriver.common.action_chains import ActionChains
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.ui import WebDriverWait
from webdriver_manager.chrome import ChromeDriverManager
from selenium.common.exceptions import NoSuchElementException
from selenium.webdriver.common.action_chains import ActionChains
from selenium.webdriver.support import expected_conditions as EC

如有未安装库的小伙伴,自行百度安装一下。
  
  

二、定义爬取的目标网站和关键词

  
应用selenium进行数据爬取时,最头疼的是很多时候都会提示Chrome版本不匹配报错,需要重新下载对应版本。本文应用代码直接安装Chrome,可以避免上述情况。接着登录北京的千龙网,输入关键词进行查询,具体代码如下:

browser 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

阿黎逸阳

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值