一.准备工作
首先,本文使用的技术为 python+requests+bs4,没有了解过可以先去了解一下。
我们的需求是将博客园问题列表中的所有问题的题目爬取下来。
二.分析:
首先博客园问题列表页面右键点击检查
通过Element查找问题所对应的属性或标签
可以发现在div class ="one_entity"中存在页面中分别对应每一个问题
接着div class ="news_item"中h2标签下是我们想要拿到的数据
三.代码实现
首先导入requests和BeautifulSoup
import requests
from bs4 import BeautifulSoup
由于很多网站定义了反爬策略,所以进行伪装一下
headers = {
'User-Agent': 'Mozilla / 5.0(WindowsNT10.0;Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 87.0.42