1.scrapy自带的pipeline有哪些
ImagesPipeline
Item Pipeline
2.如何自定义图像管道
from scrapy.pipelines.images import ImagesPipeline
classImagesPipeline(ImagesPipeline):…
3.如何自定义文件管道
from scrapy.pipelines.files import FilesPipeline
class FilesPipeline(FilesPipeline):…
4.图像管道如何存储缩略图
继承scrapy的ImagesPipeline
然后在custom_settings里面敲
(例如) ‘IMAGES_THUMBS’:{ ‘800x600’: (800, 600),
1024x768’: (1024, 768),
‘1440x900’: (1440, 900),
‘2560x1600’: (2560, 1600),}
5.图像管道的配置有哪些
‘IMAGES_URLS_FIELD’: ‘url’,
‘IMAGES_STORE’: ‘abcimgs’,
6.文件管道的常用配置有哪些
‘FILES_URLS_FIELD’: ‘url’,
‘FILES_STORE’: ‘fileimages’
7.动态网站如何使用scrapy采集
先在动态网页查看元素,然后点Network获取网址
最后在脚本里输出json_obj = json.loads(response.text):把字符串转变成字典
8.scrapy框架一般要配置哪些东西
反爬虫的相关文件:
‘ROBOTSTXT_OBEY’: False,# 是否遵守robots.txt协议,设为False
‘CONCURRENT_REQUESTS’: 16,# 请求并发数量,设置为16或更小(越小越好)
‘DOWNLOAD_DELAY’: 3, # 设置下载延迟,稍微小一些,例如.3
‘COOKIES_ENABLED’: False,# 是否禁用cookie,设置False
‘DOWNLOADER_MIDDLEWARES’: {
‘LcocSpider.rand_agent.UserAgentMiddleware’: 543,#通过自定义中间件随机更换User-Agent
‘scrapy.downloadermiddlewares.useragent.UserAgentMiddleware’: None,# 禁用系统中间件
},
‘ITEM_PIPELINES’: {
‘LcocSpider.pipelines.ImagesPipeline’: 300,# 配置管道文件
},
‘IMAGES_STORE’: ‘bizhi’,# 下载到那个文件
‘IMAGES_URLS_FIELD’: ‘url’,# 下载网址
‘IMAGES_THUMBS’: {
‘800x600’: (800, 600),
‘1024x768’: (1024, 768),
‘1440x900’: (1440, 900),
‘2560x1600’: (2560, 1600),
} # 缩略图
}
9.json.dumps()和json.loads()区别?