爬虫：千叶网图片抓取

最新推荐文章于 2020-06-08 15:26:57 发布

logitech66

最新推荐文章于 2020-06-08 15:26:57 发布

阅读量1.2k

点赞数

文章标签： python xpath

本文链接：https://blog.csdn.net/u011566614/article/details/106534348

版权

千叶网抓取图片

说明：抓取为千叶网首页某一类下面的加载的所有照片，url_source 链接里面的所有图片

利用xpath方式解析网址

将图片下载到本地指定文件夹

代码如下：

#导入库
import requests
from lxml import html
url_source = 'http://qianye88.com/5120x2880/'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'}
import os

#获取链接函数
def get_links (url):
    response = requests.get( url, headers = headers).content
    sel = html.fromstring( response )
    return sel

#xpath方式解析网页得到图片链接和名称
url_first = get_links(url_source).xpath ('//a[@class="image"]/@href')
name_picture = sel.xpath('//a[@class="title"]/@title')
#print (name_picture)

#图片链接需要进入下一级链接才能得到大图，没有登录无法下载超高清图片
for url in url_first :
    url_total = 'http://qianye88.com' + url
    url_sec = get_links(url_total)
    url_name = url_sec.xpath('//div[@class="content-left layout fl"]/img/@src')
    pic_name = url_sec.xpath('//div[@class="content-left layout fl"]/h1/text()')
    #picture = requests.get(url_name[0],headers=headers)
    
    ##保存到本地文件夹
    root = "D:\CP\Python\Exercise\jupyter_notebook\pictureDownload\\"
    path = root+pic_name[0]+'.jpg'
    try:
        if not os.path.exists(root):
            os.mkdir(root)
        if not os.path.exists(path):
            print(url_name[0])
            r = requests.get(url_name[0],headers=headers)
            with open(path, 'wb') as f:

                f.write(r.content)
                #f = r.replace(r, "1.jpg")
                f.close()
                print("文件保存成功")
        else:
            print("文件已存在")
    except:
        print("爬去失败")

logitech66

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
爬虫：千叶网图片抓取

千叶网抓取图片说明：抓取为千叶网首页某一类下面的加载的所有照片，url_source 链接里面的所有图片利用xpath方式解析网址将图片下载到本地指定文件夹代码如下：#导入库import requestsfrom lxml import htmlurl_source = 'http://qianye88.com/5120x2880/'headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.
复制链接

扫一扫