课堂复习
●1你要知道怎样创建一 个scrapy项目scrapy startproject xXX
●2你要知道怎么创建一个爬虫项目
。先要进入到scrapy这个路径下
。生成一个爬虫项目scrapy genspider demo xxx.com
。几个文件1>爬虫文件(allowed_ domains
start urls开始的可以修改的parse函数写爬虫的逻辑xpath)
。返回的数据yield scrapy.Request(url=url,callback=None,meta=None)
。settings文件 LOG LEVEL = 'WARNING’管道的注释LOG FILE ="./log.log’设置UA
。piplines处理数据(保存数据)
。logging保存一个文件
。items 可以自己定义字段。那么自己定义的地段需要在爬虫文件先导入然后使用,不使用则报错
loggin模块的使用
import scrapy
import logging
logger = logging. getLogger(__ name__)
class QbSpider(scrapy. Spider):
name ='qb'
allowed_ domains = [ ' qiushibaike.com'l
start_ urls = ['http: //qiushibaike.com/ ' ]
def parse(self, response) :
for i in range(10) :
item = {}
item[ 'content'] = "haha"
# logging. warning( item )
logger . warning( item)
yield item
pipeline文件
import logging
logger = logging. getLogger(__ name__ )
class MyspiderPipeline(object):
def process_ item(self, item, spider):
# print(item )
logger . wa rning(item)
item['hello'] = 'world'
return item
保存到本地,在setting文件中LOG FILE = './ log. log'
basicConfig样式设置
https:/ /www.cnblogs. com/felixzh/p/ 6072417.html