学习python的第七天结合requests与正则表达式（爬网页）

最新推荐文章于 2022-12-27 14:18:00 发布

有为青年……

最新推荐文章于 2022-12-27 14:18:00 发布

阅读量304

点赞数 1

分类专栏：自学python 文章标签： python

本文链接：https://blog.csdn.net/qq_41138009/article/details/105475721

版权

自学python 专栏收录该内容

16 篇文章 0 订阅

订阅专栏

本文是作者学习Python的第七天记录，利用requests库和正则表达式爬取个人博客的标题、时间及阅读量。通过实践操作，展示了简单的网页爬取过程，旨在检验本周学习成果。

摘要由CSDN通过智能技术生成

结合requests与正则表达式

学习python的第七天（2020.04.12）

本想今天周末偷偷懒，可是实在没事情做，没有女友，不想玩游戏，刚看完士兵突击，两天，人活着就是为了要做有意义的事，学python我想就是做有意义的事，写博客也是做有意义的事。加油，成为一个成功的男人，得自律，加油少年。
今天就检验自己本周的学习情况

知识梳理

爬我自己的博客（https://blog.csdn.net/qq_41138009），从中获取标题、时间、阅读量。很简单，在这里插入代码片以后也能用，感谢大家的阅读。也能自勉！(ง •_•)ง

网页图片

在这里插入图片描述

代码如下

#coding:utf-8
#coding:GBK
import re
import requests
my_bo =requests.get('https://blog.csdn.net/qq_41138009').content.decode()
title=re.findall('原创</span>        (.*?)      </a>',my_bo,re.S)
time =re.findall('<span class="date">\\n        (.*?)</span>',my_bo,re.S)
read =re.findall('阅读数 <span class="num">(.*?)</span>',my_bo,re.S)
print('标题',title)
print('时间',time)
print('阅读量',read)