python 爬虫 博客园_详解Python爬虫爬取博客园问题列表所有的问题

本文详细介绍了如何使用Python的requests和BeautifulSoup库爬取博客园问题列表的所有问题。通过分析页面结构,定位到问题所在的HTML元素,设置伪装User-Agent,循环请求不同页码,抓取并保存每一页的问题标题。
摘要由CSDN通过智能技术生成

一.准备工作

首先,本文使用的技术为 python+requests+bs4,没有了解过可以先去了解一下。

我们的需求是将博客园问题列表中的所有问题的题目爬取下来。

16a975b6f89d418aa8a0befd61a0f8db.png

二.分析:

首先博客园问题列表页面右键点击检查

通过Element查找问题所对应的属性或标签

6590e8287c36db611df6100b9a733f78.png

可以发现在div class ="one_entity"中存在页面中分别对应每一个问题

接着div class ="news_item"中h2标签下是我们想要拿到的数据

三.代码实现

首先导入requests和BeautifulSoup

import requests

from bs4 import BeautifulSoup

由于很多网站定义了反爬策略,所以进行伪装一下

headers = {

'User-Agent': 'Mozilla / 5.0(WindowsNT10.0;Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 87.0.42

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值