为了写博文汇总弄的。
# -*- coding: UTF-8 -*-
from urllib import request
import re
if __name__ == "__main__":
url = 'https://blog.csdn.net/u012587637/article/list/'
head = {}
head[
'User-Agent'] = 'User-Agent,Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.90 Safari/537.36 2345Explorer/9.3.2.17331'
for i in range (1,24):
url1=url+str(i)
req = request.Request(url1, headers=head)
response = request.urlopen(req)
html = response.read().decode('utf-8')
arr = re.findall(r'<h4 .*?>(.+?)</h4>',html,re.I|re.S|re.M)
for value in arr:
print(value+"\n<br>")
本文介绍了一个简单的Python爬虫程序,该程序用于抓取CSDN博客的文章标题。通过使用urllib和正则表达式,本程序能够有效地从指定的用户主页抓取所有文章标题,并打印出来。

被折叠的 条评论
为什么被折叠?



