爬虫进阶-----scrapy框架初探二

课堂复习

●1你要知道怎样创建一 个scrapy项目scrapy startproject xXX
●2你要知道怎么创建一个爬虫项目
。先要进入到scrapy这个路径下
。生成一个爬虫项目scrapy genspider demo xxx.com
。几个文件1>爬虫文件(allowed_ domains
start
urls开始的可以修改的parse函数写爬虫的逻辑xpath)
。返回的数据yield scrapy.Request(url=url,callback=None,meta=None)
。settings文件 LOG
LEVEL = 'WARNING’管道的注释LOG FILE ="./log.log’设置UA
。piplines处理数据(保存数据)
。logging保存一个文件
。items 可以自己定义字段。那么自己定义的地段需要在爬虫文件先导入然后使用,不使用则报错

loggin模块的使用

import scrapy
import logging
logger = logging. getLogger(__ name__)
class QbSpider(scrapy. Spider):
	name ='qb'
	allowed_ domains = [ ' qiushibaike.com'l
	start_ urls = ['http: //qiushibaike.com/ ' ]
	def parse(self, response) :
		for i in range(10) :
			item = {}
			item[ 'content'] = "haha"
			# logging. warning( item )
			logger . warning( item)
			yield item


pipeline文件
import logging
logger = logging. getLogger(__ name__ )
class MyspiderPipeline(object):
	def process_ item(self, item, spider):
		# print(item )
		logger . wa rning(item)
		item['hello'] = 'world'
		return item
保存到本地,在setting文件中LOG FILE = './ log. log'
basicConfig样式设置
https:/ /www.cnblogs. com/felixzh/p/ 6072417.html



在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值