9highlights for day 17 of Python

19 篇文章 0 订阅
18 篇文章 0 订阅

1.scrapy自带的pipeline有哪些

ImagesPipeline

Item Pipeline

2.如何自定义图像管道

from scrapy.pipelines.images import ImagesPipeline

classImagesPipeline(ImagesPipeline):…

3.如何自定义文件管道

from scrapy.pipelines.files import FilesPipeline

class FilesPipeline(FilesPipeline):…

4.图像管道如何存储缩略图

继承scrapy的ImagesPipeline

然后在custom_settings里面敲

(例如) ‘IMAGES_THUMBS’:{ ‘800x600’: (800, 600),

1024x768’: (1024, 768),

‘1440x900’: (1440, 900),

‘2560x1600’: (2560, 1600),}

5.图像管道的配置有哪些

‘IMAGES_URLS_FIELD’: ‘url’,

‘IMAGES_STORE’: ‘abcimgs’,

6.文件管道的常用配置有哪些

‘FILES_URLS_FIELD’: ‘url’,

‘FILES_STORE’: ‘fileimages’

7.动态网站如何使用scrapy采集

先在动态网页查看元素,然后点Network获取网址

最后在脚本里输出json_obj = json.loads(response.text):把字符串转变成字典

8.scrapy框架一般要配置哪些东西

反爬虫的相关文件:

‘ROBOTSTXT_OBEY’: False,# 是否遵守robots.txt协议,设为False

‘CONCURRENT_REQUESTS’: 16,# 请求并发数量,设置为16或更小(越小越好)

‘DOWNLOAD_DELAY’: 3, # 设置下载延迟,稍微小一些,例如.3

‘COOKIES_ENABLED’: False,# 是否禁用cookie,设置False

‘DOWNLOADER_MIDDLEWARES’: {

‘LcocSpider.rand_agent.UserAgentMiddleware’: 543,#通过自定义中间件随机更换User-Agent

‘scrapy.downloadermiddlewares.useragent.UserAgentMiddleware’: None,# 禁用系统中间件

},

‘ITEM_PIPELINES’: {

‘LcocSpider.pipelines.ImagesPipeline’: 300,# 配置管道文件

},

‘IMAGES_STORE’: ‘bizhi’,# 下载到那个文件

‘IMAGES_URLS_FIELD’: ‘url’,# 下载网址

‘IMAGES_THUMBS’: {

‘800x600’: (800, 600),

‘1024x768’: (1024, 768),

‘1440x900’: (1440, 900),

‘2560x1600’: (2560, 1600),

} # 缩略图

}

9.json.dumps()和json.loads()区别?

json.dumps():将字典转成字符串类型

json.loads(): 将字符串转成字典类型

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值