p29csdn博文爬虫爬取

#csdn博文爬虫爬取
#第一步关键是如何确定能够唯一的找到那个文章
#先爬取整个所有博文的地址,然后在爬去、取改地址的内容
import urllib.request
import re
url="https://www.csdn.net/"
#需要浏览器伪装
headers=("User-Agent","Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.75 Safari/537.36")
opener=urllib.request.build_opener()#建立opener对象先
opener.addheaders=[headers]
#安装为全局
urllib.request.install_opener(opener)
#url访问时自带报头
data=urllib.request.urlopen(url).read().decode("utf-8","ignore")
pat=' <div class="title">\s*?<h2>\s*?<a href="(.*?)"'
rst=re.compile(pat).findall(data)#拿到首页所有的博文链接
#print(rst)
for i in range(0,len(rst)):
    #因为要与字符串连接,所以先转化为字符串
    localpath="D:\\pythonprojects\\result\\"+str(i)+".html"
    thislink=rst[i]
    #一键下载
    urllib.request.urlretrieve(thislink,filename=localpath)
    print("当前文章(第"+str(i)+"篇)爬取成功!")
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值