scrapy+xpath爬取不可描述网站

最新推荐文章于 2024-10-15 12:53:04 发布

shitfly

最新推荐文章于 2024-10-15 12:53:04 发布

阅读量7.2k

点赞数 3

分类专栏：爬虫-python 文章标签：爬虫-python scrapy

本文链接：https://blog.csdn.net/s969966195/article/details/73525472

版权

本文介绍了一个使用Scrapy和XPath爬取特定网站的教程，详细讲解了items.py、spider.py、pipelines.py及middlewares.py的配置，包括如何保存图片到本地、字段传递和下载中间件的自定义设置。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

今天来爬一个让人很有动力的网站，网址就不便放上来了，看看有没有有缘人能得知了这里写图片描述
还是先来items.py

import scrapy


class AvmooItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    name=scrapy.Field()
    birthday=scrapy.Field()
    age=scrapy.Field()
    height=scrapy.Field()
    cup=scrapy.Field()
    bust=scrapy.Field()
    waistline=scrapy.Field()
    hipline=scrapy.Field()
    birthplace=scrapy.Field()
    Avatar=scrapy.Field()
    designations=scrapy.Field()
    des_imgs=scrapy.Field()
    des_urls=scrapy.Field()

各位施主从这些字段应该就可以看出来了吧
接下来就是主爬取程序了
spider.py

# -*- coding:utf-8 -*-

import scrapy
from AVMOO.items import AvmooItem
import os
import requests

class AvmooSpider(scrapy.Spider):
    name='AVMOO'
    allowed_domains=['xxx.xx','jp.netcdn.space/digital/video/']#,'xxxx.xx']
    start_urls=['https://xxx.xx/cn/actresses/']
    base_url='https://xxx.xx'
    des_imgs=[]


    def parse(self,response):
        star_urls=response.xpath('//a[@class="avatar-box text-center"]/