一、scrapy爬虫的步骤:
1、scrapy startproject fww_spider来生成一个scrapy项目;
2、建立Item,对应于需爬取的信息,类似对象的属性值;
3、建立spider.py,其中包含name(如dmoz,是对外爬去的项目名称)、domain、urls(爬取的对象url);
4、进行爬取,可利用管道进行。
二、本人模仿其他人编写的代码如下:
from scrapy.spider import BaseSpider
from scrapy.selector import Selectorfrom tutorial.items import DmozItem
class DmozSpider(BaseSpider):
name = "dmoz"
allowed_domains = ["dmoz.org"]
start_urls = [
"http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
]
def parse(self, response):
sel = Selector(response)
sites = sel.xpath('//div[@class="float-l"]/li')
items = []
for site in sites:
item = DmozItem()
item['title'] = site.xpath('a/text()').extract()
item['link'] = site.xpath('a/@href').extract()
item['desc'] = site.xpath('text()').extract()
items.append(item)
return items
三、Scrapy的一些初级的命令:
通过scrapy --h看到相关的命令;
如scrapy genspider -t basic fww_spider http://www.baidu.com :根据模板basic来产生一个名为fww_spider的spider.
scrapy startproject
scrapy crawl dmoz(对应于spider中的name)
scrapy crawl -o fww_json -t json(将爬取的内容以json的形式存入fww_json)
其中-o表示输出的文件名,-t表示类型,可分为json ,xml,csv