python网络爬虫技术课件_Python网络爬虫技术第7章 Scrapy爬虫.ppt

Request函数常用的参数及其说明如所表示。 编写spider脚本 参数名称 说明 url 接收string。表示用于请求的网址。无默认值 callback 接收同一个对象中方法。表示用于回调用于响应的处理的方法,未指定则继续使用prase。无默认值 method 接收string。表示请求的方式。默认为“GET” headers 接收string,dict,list。表示请求的头信息,string表示单个头信息,list则表示多个头信息,如果为None,那么将不发送HTTP请求头信息。无默认值 meta 接收dict。表示Request.meta属性的初始值。如果给了该参数,dict将会浅拷贝。无默认值 cookies 接收list,dict。表示请求的cookies。无默认值 Scrapy设置允许自定义所有Scrapy组件,包括核心、扩展、管道和爬虫本身。设置的基础结构提供键值映射的全局命名空间,代码可以使用它从中提取配置值。用户可以通过不同的机制来填充设置,这些设置也是选择当前活动的Scrapy项目的机制之一。 在TipDMSpider项目的默认settings脚本中共有25个设置,每个设置的详细情况如表所示。 修改settings脚本 设置名称 说明 BOT_NAME 此Scrapy项目实施的bot的名称(也称为项目名称)。这将用于默认情况下构造User-Agent,也用于日志记录。默认为项目名称 SPIDER_MODULES Scrapy将使用的Spiders列表。默认为项目spiders目录,可存在多个目录 NEWSPIDER_MODULE 新的Spider位置。默认为项目spiders目录,仅接收string ROBOTSTXT_OBEY 是否启用robot.txt政策。默认为True CONCURRENT_REQUESTS Scrapy下载程序执行的并发(即同时)请求的最大数量。默认为16 设置名称 说明 DOWNLOAD_DELAY 下载器在从同一网站下载连续网页之前应等待的时间,主要用于限制爬取的速度。默认为3 CONCURRENT_REQUESTS_PER_DOMAIN 任何单个域执行的并发(同时)请求的最大数量。默认为16 CONCURRENT_REQUESTS_PER_IP 将对任何单个IP执行的并发(即同时)请求的最大数量。如果非零,则忽略CONCURRENT_REQUESTS_PER_DOMAIN设置,而改为使用此设置,表示并发限制将应用于每个IP,而不是每个域。默认为16 COOKIES_ENABLED 是否启用Cookie中间件,如果禁用,则不会将Cookie发送至Web服务器。默认为True TELNETCONSOLE_ENABLED 是否启用telnet控制台。默认为True DEFAULT_REQUEST_HEADERS 用于Scrapy的HTTP请求的默认标头。默认为{'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8','Accept-Language': 'en',} 修改settings脚本 设置名称 说明 SPIDER_MIDDLEWARES 项目中启用的Spider中间件的字典及其顺序。默认为{} DOWNLOADER_MIDDLEWARES 项目中启用的下载器中间件的字典及其顺序。默认为{} EXTENSIONS 项目中启用的扩展名及其顺序的字典。默认为{} ITEM_PIPELINES 使用的项目管道及其顺序的字典。默认为{} AUTOTHROTTLE_ENABLED 是否启用AutoThrottle扩展。默认为False AUTOTHROTTLE_START_DELAY 最初的下载延迟(以秒为单位)。默认为5.0 AUTOTHROTTLE_MAX_DELAY 在高延迟情况下设置的最大下载延迟(以秒为单位)。默认为60.0 AUTOTHROTTLE_TARGET_CONCURRENCY Scrapy应平行发送到远程网站的平均请求数量。默认为1.0 AUTOTHROTTLE_DEBUG 是否启用AutoThrottle调试模式,该模式将显示收到的每个响应的统计数据,以便用户实时调整调节参数。默认为False HTTPCACHE_ENABLED 是否启用HTTP缓存。默认为False 修改settings脚本 设置名称 说明 HTTPCACHE_ENABLED 是否启用HTTP缓存。默认为False HTTPCACHE_EXPIRATION_SECS 缓存请求的到期时间,以秒为单位。默认为0 HTTPCACHE_DIR 用于存储(低级别)HTTP缓存的目录,如果为空,则HT

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值