python爬虫 萌新第一次试手

本文是作者初次尝试Python爬虫的实践记录,通过xpath解析技术,爬取了一个壁纸网站的多个主页链接,进一步获取相册首页,并抓取了相册内的所有图片URL,最终保存了图片文件。爬取的网站为http://www.win4000.com/meinvtag2_1.html,代码可能存在不完善之处。
摘要由CSDN通过智能技术生成

爬取测试网站

这个网站是百度搜的壁纸网站 练手用的 第一次用xpath可能不太熟练
下面是网址

http://www.win4000.com/meinvtag2_1.html

获取该网站多个主页的url

def get_url_list():                                                     #得到多个主页
    li = []
    for i in [29, 31, 32, 33, 34, 35]: #26, 28,
        for j in range(1,5):
            try:
                url = f"http://www.win4000.com/meinvtag{i}_{j}.html"
                status = requests.get(url).status_code
                if status == 200:
                    li.append(url)
                else:
                    break
            except:
                pass
    return li

获取主页中相册首页url

def get_url(url):                                                                   # 得到主页网址中,我需要的页面,相册第一张图片网页的html
    ret = requests.get(url=url,headers=headers)                                     # 请求主页html源码
    ret2 = ret.text                                                                 # 将请求的html源码放入ret2变量
    selector = parsel.Selector(ret2)                                                # selector方法把ret转换数据类型 放入变量selector
    url2_list = selector.xpath('//div[@class="Left_bar"]//ul/li/a/@href').getall()  # getall方法提取每个相册首页源码
    # print(url2_list)
    return url2_list

得到相册内所有img图片网址

def get_img_url(url):                                                               # 得到相册内所有img图片的网址url
    li = []
    for i in 
  • 11
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 12
    评论
评论 12
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值