python基础_Scrapy爬虫基础学习一_python scrapy 爬虫深入学习-CSDN博客

本文链接：https://blog.csdn.net/qq_32895695/article/details/50019171

一、scrapy爬虫的步骤：

1、scrapy startproject fww_spider来生成一个scrapy项目；

2、建立Item，对应于需爬取的信息，类似对象的属性值；

3、建立spider.py，其中包含name(如dmoz，是对外爬去的项目名称)、domain、urls(爬取的对象url);

4、进行爬取，可利用管道进行。

二、本人模仿其他人编写的代码如下：

from scrapy.spider import BaseSpider

from scrapy.selector import Selector

from tutorial.items import DmozItem

class DmozSpider(BaseSpider):
    name = "dmoz"
    allowed_domains = ["dmoz.org"]
    start_urls = [
       "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
         ]

    def parse(self, response):
        sel = Selector(response)
        sites = sel.xpath('//div[@class="float-l"]/li')
        items = []
        for site in sites:
            item = DmozItem()
            item['title'] = site.xpath('a/text()').extract()
            item['link'] = site.xpath('a/@href').extract()
            item['desc'] = site.xpath('text()').extract()
            items.append(item)

return items

三、Scrapy的一些初级的命令：

通过scrapy --h看到相关的命令；

如scrapy genspider -t basic fww_spider http://www.baidu.com :根据模板basic来产生一个名为fww_spider的spider.

scrapy startproject

scrapy crawl dmoz(对应于spider中的name)

scrapy crawl -o fww_json -t json(将爬取的内容以json的形式存入fww_json)

其中-o表示输出的文件名，-t表示类型，可分为json ,xml,csv