用python从豆瓣爬取王祖贤的照片

最新推荐文章于 2021-08-17 16:15:18 发布

每天晒白牙

最新推荐文章于 2021-08-17 16:15:18 发布

阅读量514

点赞数

分类专栏： python 实战文章标签： python 用python爬取豆瓣 xpath 爬虫

本文链接：https://blog.csdn.net/dam454450872/article/details/86709993

版权

实战同时被 2 个专栏收录

15 篇文章 0 订阅

订阅专栏

python

1 篇文章 0 订阅

订阅专栏

发现实战真的是最好的学习方法！

语言：python
IDE：PyCharm

前期准备：

安装好python、chromedriver、浏览器XPath Helper插件

这次演示爬取json格式的和html格式分别的处理方法

首先先看json格式的

先打开豆瓣，搜索“王祖贤”->选择图片->找到请求的url

我们访问这个url，发现返回的数据是json格式的

然后看html格式的

访问这个url:movie.douban.com，然后搜索王祖贤，通过查看源码，了解结构，然后用XPath Helper插件做试验，按住ctrl+shift+x 同时鼠标点击王祖贤图片，根据XPath的语法，写表达式，如下：

介绍完毕后，直接上代码：

import requests
import json
# lxml是一个流行的解析库，使用的是Xpath语法，可以解析HTML
from lxml import etree
from selenium import webdriver

query = '王祖贤'
downloadPath = 'D:/workspace/study/python/text_classification/testdata/photos/'
# chromedriver需要配置环境变量，查看网上资料说建议放到python的Scripts目录下
chromedriverPath = 'D:/devsoft/python/Scripts/chromedriver'

''' 下载图片 '''
def download(src, id):
    dir = downloadPath + str(id) + '.jpg'
    try:
        pic = requests.get(src, timeout=10)
        fp = open(dir, 'wb')
        fp.write(pic.content)
        fp.close()
    except requests.exceptions.ConnectionError:
        print('图片无法下载')

# 数据是json格式
def getPhotos():
    ''' for 循环 请求全部的 url '''
    for i in range(0, 200, 20):
        url = 'https://www.douban.com/j/search_photo?q=' + query + '&limit=20&start=' + str(i)
        html = requests.get(url).text  # 得到返回结果
        response = json.loads(html, encoding='utf-8')  # 将 JSON 格式转换成 Python 对象
        for image in response['images']:
            print(image['src'])  # 查看当前下载的图片网址
            download(image['src'], image['id'])  # 下载一张图片

# 数据是 html格式，有时候网页会用 JS请求数据，只有等JS都加载结束后，才能获取完成的html，但xpath不受限制
def getMoviePhotos():
    url = 'https://movie.douban.com/subject_search?search_text=' + query + '&cat=1002'
    driver = webdriver.Chrome(chromedriverPath)
    driver.get(url)
    # 初始化
    html = etree.HTML(driver.page_source)
    # 使用xpath helper, ctrl+shit+x 选中元素
    # xpath 语法 http://www.w3school.com.cn/xpath/xpath_syntax.asp
    src_xpath = "//div[@class='item-root']/a[@class='cover-link']/img[@class='cover']/@src"
    title_xpath = "//div[@class='item-root']/div[@class='detail']/div[@class='title']/a[@class='title-text']"

    srcs = html.xpath(src_xpath)
    titles = html.xpath(title_xpath)
    # zip()函数用于将可迭代的对象作为参数，将对象中对应的元素打包成一个个元组，返回由元祖组成的对象。优点是节约内存
    # 参考 http://www.runoob.com/python3/python3-func-zip.html
    for src, title in zip(srcs, titles):
        # join 字符串拼接
        print('\t'.join([str(src), str(title.text)]))
        download(src, title.text)

    driver.close()

getPhotos()
getMoviePhotos()

然后执行后，在文件夹中就能看到下载的图片了

每天晒白牙

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
用python从豆瓣爬取王祖贤的照片

发现实战真的是最好的学习方法！语言：pythonIDE：PyCharm前期准备：安装好python、chromedriver、浏览器XPath Helper插件这次演示爬取json格式的和html格式分别的处理方法首先先看json格式的先打开豆瓣，搜索“王祖贤”-&gt;选择图片-&gt;找到请求的url我们访问这个url，发现返回的数据是json格式的然...
复制链接

扫一扫