python爬虫scrapy之贷联盟黑名单爬取

最新推荐文章于 2024-09-17 13:30:28 发布

ElsaRememberAllBug

最新推荐文章于 2024-09-17 13:30:28 发布

阅读量1k

点赞数 1

分类专栏： python，爬虫，scrapy 文章标签： scrapy python 爬虫贷联盟拍拍贷

本文链接：https://blog.csdn.net/ElsaRememberAllBug/article/details/78803595

版权

本文介绍了使用Python Scrapy框架爬取贷联盟黑名单的过程，包括项目创建、自定义属性顺序输出。通过创建csv_item_exporter.py文件，实现了按预设顺序导出属性，并利用Scrapy的高效特性爬取多个页面。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、创建项目

scrapy startproject ppd

2，爬取单页，主要用xpath

spider里面的源码

from scrapy.spiders import Spider
from scrapy.selector import Selector
from ppd.items import BlackItem

class PpdSpider(Spider):
    name = "ppd"
    allowed_domains = ["dailianmeng.com"]
    start_urls = [
        "http://www.dailianmeng.com/p2pblacklist/index.html"
    ]

    def parse(self, response):

      sites = response.xpath('//*[@id="yw0"]/table/tbody/tr')
      items = []
      for site in sites:
        item = BlackItem()
        item['name'] = site.xpath('td[1]/text()').extract()
        item['idcard'] = site.xpath('td[2]/text()').extract()
        item['mobile']=site.xpath('td[3]/text()').extract()
        item['email']=site.xpath('td[4]/text()').extract()
        item['total']=site.xpath('td[5]/text()').extract()
        item['bepaid']=site.xpath('td[6]/text()').extract()
        item['notPaid']=site.xpath('td[7]/text()').extract()
        item['time']=site.xpath('td[8]/text()').extract()
        item['loanAmount']=site.xpath('td[9]/text()').extract()
        items