Scrapy---生成文件

最新推荐文章于 2023-11-12 22:08:20 发布

CaiJin1217

最新推荐文章于 2023-11-12 22:08:20 发布

阅读量632

点赞数 1

分类专栏： Python---Scrapy爬虫

本文链接：https://blog.csdn.net/CaiJin1217/article/details/80185146

版权

Python---Scrapy爬虫专栏收录该内容

5 篇文章 0 订阅

订阅专栏

scrapy应用
一、Scrapy框架的应用步骤
1、创建工程：scrapy startproject 工程名称
2、创建爬虫：scrapy genspider 文件名称xxxspider 网址

二、开发
1、items.py 确定数据采集的属性—采集项
变量名 = scrapy.Field()
title = scrapy.Field()
rank = scrapy.Field()
…
2、spider爬虫程序
确定爬取的网页 start_urls = [‘xxxxxxx’]
完善parse方法使用for循环item标签
在循环体中创建并封装数据对象（XPath解析数据）
yield 类对象将获的对象装载到列表中
3、设置数据处理（pipelines.py）
在屏幕输出……

4、在settings.py中设置pipelines输出项
ITEM_PIPELINES = {
项目名称.文件名称.类名称:数据处理级别(处理顺序)
‘doubanMovie.piplinestxt.DoubanmoviePipeline’:1,
‘doubanMovie.piplinesjson.DoubanmoviePipeline’:2,
‘doubanMovie.piplinesexcel.DoubanmoviePipeline’:3,
‘doubanMovie.piplinesmysql.DoubanmoviePipeline’:4
}

5、添加自动轮询动态代理并在settings.py中设置
DOWNLOADER_MIDDLEWARES = {
‘scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware’ : None,
‘项目名称.rotate_useragent.RotateUserAgentMiddleware’ :400
}

6、启动项目 scrapy crawl moviespider（爬虫名称）

运行时出现没有win32模块，下载它
https://movie.douban.com/top250
下载 win32模块
pip install pypiwin32

CaiJin1217

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Scrapy---生成文件

scrapy应用一、Scrapy框架的应用步骤 1、创建工程：scrapy startproject 工程名称 2、创建爬虫：scrapy genspider 文件名称xxxspider 网址二、开发 1、items.py 确定数据采集的属性—采集项变量名 = scrapy.Field() title = scrapy.F...
复制链接

扫一扫

专栏目录