序
我的Python3爬虫(五)博文使用utllib基本函数以及正则表达式技术实现了爬取csdn全部博文信息的任务。
上一篇,我们学习了BeautifulSoup这样一个优秀的Python库,必须有效利用起来。那么我们就利用BeautifulSoup4重新实现一次爬取csdn博文的任务。
由于我修改了博客配置,首页主题换了一下,我们基于新的主题查看网页,如下图所示:
同样的,确认要提取的信息,以及博文总页数。
分析网页源码
url以及请求报头的设置与之前相同,在这儿就不啰嗦了,主要详述怎样利用BeautifulSoup4获取我们的目标信息,先来看一下当前网页源码:
博文信息模块:
页码信息模块:
提取博文页数
#求总页数
def