scrapy+xpath爬取不可描述网站

最新推荐文章于 2022-10-10 21:12:33 发布

VIP文章 shitfly

最新推荐文章于 2022-10-10 21:12:33 发布

阅读量6.4k

点赞数 3

分类专栏：爬虫-python 文章标签：爬虫-python scrapy

本文链接：https://blog.csdn.net/s969966195/article/details/73525472

版权

今天来爬一个让人很有动力的网站，网址就不便放上来了，看看有没有有缘人能得知了这里写图片描述
还是先来items.py

import scrapy


class AvmooItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    name=scrapy.Field()
    birthday=scrapy.Field()
    age=scrapy.Field()
    height=scrapy.Field()
    cup=scrapy.Field()
    bust=scrapy.Field()
    waistline=scrapy.Field()
    hipline=scrapy.Field()
    birthplace=scrapy.Field()
    Avatar=scrapy.Field()
    designations=scrapy.Field()
    des_imgs=scrapy.Field()
    des_urls=scrapy.Field()

各位施主从这些字段应该就可以看出来了吧
接下来就是主爬取程序了
spider.py

# -*- coding:utf-8 -*-

import scrapy
from AVMOO.items import AvmooItem
import os
import requests

class AvmooSpider(scrapy.Spider):
    name='AVMOO'
    allowed_domains=['xxx.xx','jp.netcdn.space/digital/video/']#,'xxxx.xx']
    start_urls=['https://xxx.xx/cn/actresses/']
    base_url='https://xxx.xx'
    des_imgs=[]


    def parse(self,response):
        star_urls=response.xpath('//a[@class="avatar-box text-center"]/

最低0.47元/天解锁文章

shitfly

关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
scrapy+xpath爬取不可描述网站

今天来爬一个让人很有动力的网站，网址就不便放上来了，看看有没有有缘人能得知了还是先来items.pyimport scrapyclass AvmooItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() name=scrapy.Field()
复制链接

扫一扫