python爬虫萌新第一次试手

最新推荐文章于 2024-08-10 23:14:03 发布

跌倒在了学习的路上

最新推荐文章于 2024-08-10 23:14:03 发布

阅读量1.1k

点赞数 11

分类专栏：爬虫文章标签： python xpath url

本文链接：https://blog.csdn.net/qq_52993001/article/details/111563347

版权

本文是作者初次尝试Python爬虫的实践记录，通过xpath解析技术，爬取了一个壁纸网站的多个主页链接，进一步获取相册首页，并抓取了相册内的所有图片URL，最终保存了图片文件。爬取的网站为http://www.win4000.com/meinvtag2_1.html，代码可能存在不完善之处。

摘要由CSDN通过智能技术生成

思路如下

爬取测试网站

这个网站是百度搜的壁纸网站练手用的第一次用xpath可能不太熟练
下面是网址

http://www.win4000.com/meinvtag2_1.html

获取该网站多个主页的url

def get_url_list():                                                     #得到多个主页
    li = []
    for i in [29, 31, 32, 33, 34, 35]: #26, 28,
        for j in range(1,5):
            try:
                url = f"http://www.win4000.com/meinvtag{i}_{j}.html"
                status = requests.get(url).status_code
                if status == 200:
                    li.append(url)
                else:
                    break
            except:
                pass
    return li

获取主页中相册首页url

def get_url(url):                                                                   # 得到主页网址中，我需要的页面，相册第一张图片网页的html
    ret = requests.get(url=url,headers=headers)                                     # 请求主页html源码
    ret2 = ret.text                                                                 # 将请求的html源码放入ret2变量
    selector = parsel.Selector(ret2)                                                # selector方法把ret转换数据类型 放入变量selector
    url2_list = selector.xpath('//div[@class="Left_bar"]//ul/li/a/@href').getall()  # getall方法提取每个相册首页源码
    # print(url2_list)
    return url2_list

得到相册内所有img图片网址

def get_img_url(url):                                                               # 得到相册内所有img图片的网址url
    li = []
    for i in

最低0.47元/天解锁文章

跌倒在了学习的路上

关注

11
点赞
踩
11

收藏

觉得还不错? 一键收藏
12
评论
python爬虫萌新第一次试手

思路如下爬取测试网站获取该网站多个主页的url获取主页中相册首页url得到相册内所有img图片网址保存图片文件遍历执行爬取测试网站这个网站是百度搜的壁纸网站练手用的第一次用xpath可能不太熟练下面是网址http://www.win4000.com/meinvtag2_1.html获取该网站多个主页的urldef get_url_list(): #得到多个主页 li = []
复制链接

扫一扫