python基础_Scrapy爬虫基础学习一

一、scrapy爬虫的步骤: 

1、scrapy startproject fww_spider来生成一个scrapy项目;

2、建立Item,对应于需爬取的信息,类似对象的属性值;

3、建立spider.py,其中包含name(如dmoz,是对外爬去的项目名称)、domain、urls(爬取的对象url);

4、进行爬取,可利用管道进行。


二、本人模仿其他人编写的代码如下:

from scrapy.spider import BaseSpider

from scrapy.selector import Selector

from tutorial.items import DmozItem

class DmozSpider(BaseSpider):
    name = "dmoz"
    allowed_domains = ["dmoz.org"]
    start_urls = [
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
         ]

    def parse(self, response):
        sel = Selector(response)
        sites = sel.xpath('//div[@class="float-l"]/li')
        items = []
        for site in sites:
            item = DmozItem()
            item['title'] = site.xpath('a/text()').extract()
            item['link'] = site.xpath('a/@href').extract()
            item['desc'] = site.xpath('text()').extract()
            items.append(item)

        return items


三、Scrapy的一些初级的命令:

      通过scrapy --h看到相关的命令;

     如scrapy genspider   -t basic fww_spider http://www.baidu.com   :根据模板basic来产生一个名为fww_spider的spider.

    scrapy startproject

    scrapy crawl dmoz(对应于spider中的name)

    scrapy crawl -o fww_json -t json(将爬取的内容以json的形式存入fww_json)

   其中-o表示输出的文件名,-t表示类型,可分为json ,xml,csv



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值