scrapy简介
开源的,对平台的爬虫框架
新旧代码区别(新代码是只2015年新版本)
#旧版本
# 需要预先定义所需字段
class MyItem(scrapy.Item):
url = scrapy.Field()
# 再将所需字段填充
class MySpier(scrapy.Spider):
def parse(self, response):
return sudo apt install python MyItem(url=response.url)
#新版本
#不需要预先定义字段
class MySpier(scrapy.Spider):
def parse(self,response):
return {'url':response.url}
定义log日志的级别:
旧版本
from scrapy import log
log.msg('MESSAGE',log.INFO)
新版本:
import logging
logging.info('MESSAGE')