爬虫进阶-----scrapy框架初探二

littlespider889

于 2020-06-24 19:50:30 发布

阅读量294

点赞数 1

分类专栏： python scrapy 文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/littlespider889/article/details/106949893

版权

python 同时被 2 个专栏收录

156 篇文章 9 订阅

订阅专栏

6 篇文章 0 订阅

订阅专栏

课堂复习

●1你要知道怎样创建一个scrapy项目scrapy startproject xXX
●2你要知道怎么创建一个爬虫项目
。先要进入到scrapy这个路径下
。生成一个爬虫项目scrapy genspider demo xxx.com
。几个文件1>爬虫文件(allowed_ domains
start urls开始的可以修改的parse函数写爬虫的逻辑xpath)
。返回的数据yield scrapy.Request(url=url,callback=None,meta=None)
。settings文件 LOG LEVEL = 'WARNING’管道的注释LOG FILE ="./log.log’设置UA
。piplines处理数据(保存数据)
。logging保存一个文件
。items 可以自己定义字段。那么自己定义的地段需要在爬虫文件先导入然后使用，不使用则报错

loggin模块的使用

import scrapy
import logging
logger = logging. getLogger(__ name__)
class QbSpider(scrapy. Spider):
	name ='qb'
	allowed_ domains = [ ' qiushibaike.com'l
	start_ urls = ['http: //qiushibaike.com/ ' ]
	def parse(self, response) :
		for i in range(10) :
			item = {}
			item[ 'content'] = "haha"
			# logging. warning( item )
			logger . warning( item)
			yield item


pipeline文件
import logging
logger = logging. getLogger(__ name__ )
class MyspiderPipeline(object):
	def process_ item(self, item, spider):
		# print(item )
		logger . wa rning(item)
		item['hello'] = 'world'
		return item
保存到本地，在setting文件中LOG FILE = './ log. log'
basicConfig样式设置
https:/ /www.cnblogs. com/felixzh/p/ 6072417.html

在这里插入图片描述

在这里插入图片描述

littlespider889

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫进阶-----scrapy框架初探二

课堂复习●1你要知道怎样创建一个scrapy项目scrapy startproject xXX●2你要知道怎么创建一个爬虫项目。先要进入到scrapy这个路径下。生成一个爬虫项目scrapy genspider demo xxx.com。几个文件1>爬虫文件(allowed_ domainsstart urls开始的可以修改的parse函数写爬虫的逻辑xpath)。返回的数据yield scrapy.Request(url=url,callback=None,meta=None)。s
复制链接

扫一扫

专栏目录

littlespider889 CSDN认证博客专家 CSDN认证企业博客

码龄4年

241: 原创

1万+: 周排名

7870: 总排名

26万+: 访问

: 等级

3761: 积分

5856: 粉丝

326: 获赞

68: 评论

871: 收藏

私信

关注

热门文章

分类专栏

VBA 4篇
excel 33篇
tkinter 1篇
mysql 27篇
爬虫 24篇
python 156篇
spider 16篇
数据可视化 4篇
数据分析与挖掘 16篇
LAMP
Linux 2篇
word 2篇
scrapy 6篇
PMP 1篇
正则表达式 2篇
Flask 14篇
web安全测试 1篇
岭回归与lasso回归 1篇
线性回归分析 2篇
numpy 3篇
web安全攻防 1篇
vue 3篇
redis 3篇
Django 5篇
git 1篇
github 1篇
mongodb 3篇
词云图 2篇
urllib 1篇
笔记 2篇

最新评论

python的GUI编程初探，这部分内容真的非常有意思
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加除了各种控件外，文章正文的字数；(2)提升标题与正文的相关性；(3)使用更多的站内链接。
用python的selenium模块自动爬取歌曲评论和登录豆瓣
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性；(2)使用更多的站内链接；(3)增加除了各种控件外，文章正文的字数。
小福利，用xpath爬取电影数据
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用更多的站内链接；(2)增加条理清晰的目录；(3)提升标题与正文的相关性。
用Python的xpath模块学习抓取图片
CSDN-Ada助手: 行动是成功的阶梯，行动越多，登得越高。
小福利，爬取旅游攻略，做好攻略随时出发去旅游哦
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性；(2)增加除了各种控件外，文章正文的字数；(3)使用更多的站内链接。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。