python正则表达式爬取博客标题

最新推荐文章于 2024-04-06 13:38:19 发布

9号信箱

最新推荐文章于 2024-04-06 13:38:19 发布

阅读量1.4k

点赞数

分类专栏： Python 爬虫文章标签： python 爬虫正则表达式

本文链接：https://blog.csdn.net/lws123253/article/details/91048973

版权

Python 同时被 2 个专栏收录

25 篇文章 1 订阅

订阅专栏

爬虫

4 篇文章 0 订阅

订阅专栏

import requests
import re

headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'}
for i in range(1,8):
    link='https://blog.csdn.net/lws123253/article/list/'+str(i)+'?'
    #第一页地址：https://blog.csdn.net/lws123253/article/list/1?
    #最后一页地址：https://blog.csdn.net/lws123253/article/list/7?
    r=requests.get(link,headers=headers)
    title_list=re.findall('<span class=.*?</span>(.*?)</a>',r.text)#中间的(.*？)表示提取匹配到内容的括号内部分
    for title in title_list:
        print(title.strip())

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

9号信箱

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
python正则表达式爬取博客标题

import requestsimport reheaders={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'}for i in range(1,8): link='...
复制链接

扫一扫