python提取CSDN博客文章url和标题

这是一个Python爬虫程序,用于抓取CSDN个人博客的指定页面(1-10页)文章的标题和链接。通过设置User-Agent避免被识别为爬虫,并使用正则表达式匹配HTML内容,提取文章标题和URL。程序首先定义请求头,然后遍历页码,发起HTTP请求,解码响应内容,再通过正则表达式找出所有文章的标题和URL并打印。
摘要由CSDN通过智能技术生成
# -*- coding: UTF-8 -*-
#导入request和re模块
from urllib import request
import re
#防止被应用到其他模块调用
if __name__ == "__main__":
#自己的CSDN list地址注意格式
    url = 'https://blog.csdn.net/icanflyingg/article/list/'
    head = {}
#定义一个字典,将爬虫程序披上浏览器访问的外衣
    head['User-Agent'] = 'User-Agent,Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.90 Safari/537.36 2345Explorer/9.3.2.17331'
    #自己CSDN页码数
    for i in range (1,10):
        url1=url+str(i)
        #把所需要的请求参数进行打包,然后一起交给urlopen 进行请求
        req = request.Request(url1, headers=head)
        #发起请求
        response = request.urlopen(req)
        #对收集的参数进行解码
        html = response.read().decode('utf-8')
            #re.M :多行匹配
            #"re.S"单行匹配,如果分行则显示为一行/n
            #re.I : 忽略大小写
        arr = re.findall(r'<h4 .*?>(.+?)</h4>',html,re.I|re.S|re.M)
        for value in arr:
            #打印文章url  
            #"lstrip()":去除字段前面空格
            #"rstrip()":把右边的空格去掉
            #"strip()":把头和尾的空格去掉(sep=(''))
            #"re.S"单行匹配,如果分行则显示为一行/n
            #re.findall提取操作re.findall('匹配内容(.*)"匹配内容',value)[0])   
            weburl=str(re.findall('"(.*)" ',value)[0]).lstrip()
            print(weburl)
            ##打印标题
            title = str(re.findall('</span>(.*)</a>', value, re.S)[0]).lstrip()
            print(title)

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

三颗草丶

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值