scrapy爬取80小说

最新推荐文章于 2024-04-29 10:49:37 发布

费迪南大公

最新推荐文章于 2024-04-29 10:49:37 发布

阅读量158

点赞数

本文链接：https://blog.csdn.net/qq_43360912/article/details/107445099

版权

-- coding: utf-8 --

import scrapy
from Novels1.items import Novels1Item

class Novels80Spider(scrapy.Spider):
name = ‘novels80’
allowed_domains = [‘txt80.com’]
start_urls = [‘http://txt80.com/dushi/’]

def parse(self, response):
    # divs = response.xpath('//div[@class="list_l_box"]')

    # for div in divs:
    #     # items = {}
    #     titles = div.xpath('//div[@class="info"]/h4/a/text()').extract()
    #     auths = div.xpath('//div[@class="info"]/p[1]/b/a[2]/text()').extract()
    #     images = div.xpath('//div[@class="pic"]/a/img/@src').extract()
    #     sub_times = div.xpath('//div[@class="info"]/p[3]/font/text()').extract()          
        
    #     item = Novels1Item(titles=titles, auths=auths, images=images, sub_times=sub_times)
        
    #     yield item
    divs = response.xpath('//div[@class="list_l_box"]/div')[:-2]
    for div in divs:
        # get() 取出字符串
        title = div.xpath('./div[@class="info"]/h4/a/text()')[0].get()
        auth = div.xpath('./div[@class="info"]/p[1]/b/a[2]/text()')[0].get()
        img = div.xpath('./div[@class="pic"]/a/img/@src')[0].get()

        item = Novels1Item(title=title, auth=auth, img=img)
        yield item

费迪南大公

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
scrapy爬取80小说

-- coding: utf-8 --import scrapyfrom Novels1.items import Novels1Itemclass Novels80Spider(scrapy.Spider):name = ‘novels80’allowed_domains = [‘txt80.com’]start_urls = [‘http://txt80.com/dushi/’]def parse(self, response): # divs = response.xpath('
复制链接

扫一扫