python面试题01

本文介绍了Python爬虫面试中常见的知识点,包括Scrapy框架的基本理解,如其异步特性、优势和不足;HTTP与HTTPS的区别、应用场景及其优缺点;HTTPS安全证书的来源与申请;GET和POST请求的不同;以及为何在分布式爬虫中选择Redis数据库,强调了Redis的高速读取效率和主从同步能力。
摘要由CSDN通过智能技术生成

1.python 爬虫有哪些常用技术?
Scrapy,Beautiful Soup, urllib,urllib2,requests
2.简单说一下你对 scrapy 的了解?
scrapy 是一个快速(fast)、高层次(high-level)的基于 python 的 web 爬虫构架。
用来下载、并解析 web 页面, 其 parse->yield item->pipeline 流程是所有爬虫的固有模式。
构造形式主要分spider.pypipeline.py item.py decorator.py middlewares.py setting.py
3.、Scrapy 的优缺点?
(1)优点:scrapy 是异步的
采取可读性更强的 xpath 代替正则强大的统计和 log 系统,同时在不同的 url 上爬行支持 shell 方式,方便独立调试写 middleware,方便写一些统一的过滤器,通过管道的方式存入数据库
(2)缺点:基于 python 的爬虫框架,扩展性比较差
基于 twisted 框架

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值