站长之家（素材网）

最新推荐文章于 2022-09-28 13:39:37 发布

baidu_252253

最新推荐文章于 2022-09-28 13:39:37 发布

阅读量4.3k

点赞数

分类专栏：爬虫实战

本文链接：https://blog.csdn.net/baidu_32542573/article/details/80047129

版权

爬虫实战专栏收录该内容

12 篇文章 0 订阅

订阅专栏

# -*- coding: utf-8 -*-
import scrapy
from ..items import JLItem

class ChainazSpider(scrapy.Spider):
name = 'chainaz'
allowed_domains = ['chinaz.com']
start_urls = ['http://sc.chinaz.com/']
base_url = 'http://sc.chinaz.com'
def parse(self, response):

# 找到简历模板的url地址
url = response.xpath('//li[contains(@class,"no3")]/a[4]/@href').extract_first('')

# 拼接完整的地址
url = self.base_url+url
yield scrapy.Request(
url = url,
callback=self.parse_free
)
# 找到免费模板链接
def parse_free(self, response):

url = response.xpath('//a[@class="fufei"]/@href').extract_first('')

yield scrapy.Request(
url = self.base_url+url,
callback=self.parse_detail
)
# 解析免费模板中每一个模板链接
def parse_detail(self, response):
# 找到所有模板的链接
mb_links = response.xpath('//div[contains(@class,"picblock")]/div/a/@href').extract()
# for循环遍历每一个链接
for link in mb_links:
# 根据url地址,创建请求对象
yield scrapy.Request(
url=link,
callback=self.parse_jlmb
)

# 找下一页
# 1.有下一页链接,直接找下一页链接
# 2.没有下一页链接,找总页数,或者计算总页数,for循环执行发送请求操作
def parse_jlmb(self, response):
# 找到简历图片的链接
img_src = response.xpath('//div[@id="shareList"]/span/img/@src').extract_first('')
# 找到下载链接
download_url = response.xpath('//div[@class="dian"][2]/a[1]/@href').extract_first('')
# 找到简历名称
name = response.xpath('//h2/a[2]/text()').extract_first('')
# print(name,img_src,download_url)

item = JLItem()
item['name'] = name
# 图片和简历文件需要进行下载,属性值必须是一个列表
item['img_src'] = [img_src]
item['download_url'] = [download_url]

yield item

baidu_252253

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
站长之家（素材网）

# -*- coding: utf-8 -*-import scrapyfrom ..items import JLItemclass ChainazSpider(scrapy.Spider): name = 'chainaz' allowed_domains = ['chinaz.com'] start_urls = ['http://sc.chinaz.com/'] b...
复制链接

扫一扫