淘宝图片获取

T_maker

于 2018-01-24 10:00:30 发布

阅读量1.3k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：爬虫爱好者爬虫新手文章标签： python 淘宝 requests

本文链接：https://blog.csdn.net/T_maker/article/details/79147310

使用python中的requests模块发送请求，接着使用lxml解析页面，再使用xpath提取节点信息。

from retrying import retry
from lxml import etree
import requests
import re
import os


class Spider(object):
    def __init__(self):
        self.headers = {
            '''模拟浏览器，防反爬，同理可以加上refer与cookie'''
            "User_Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"
        }

    '''尝试五次'''
    @retry(stop_max_attempt_number=5)
    def _parse_url(self, url):
        try:
            response = requests.get(url, headers=self.headers).content.