1.python 爬虫有哪些常用技术?
Scrapy,Beautiful Soup, urllib,urllib2,requests
2.简单说一下你对 scrapy 的了解?
scrapy 是一个快速(fast)、高层次(high-level)的基于 python 的 web 爬虫构架。
用来下载、并解析 web 页面, 其 parse->yield item->pipeline 流程是所有爬虫的固有模式。
构造形式主要分spider.pypipeline.py item.py decorator.py middlewares.py setting.py。
3.、Scrapy 的优缺点?
(1)优点:scrapy 是异步的
采取可读性更强的 xpath 代替正则强大的统计和 log 系统,同时在不同的 url 上爬行支持 shell 方式,方便独立调试写 middleware,方便写一些统一的过滤器,通过管道的方式存入数据库
(2)缺点:基于 python 的爬虫框架,扩展性比较差
基于 twisted 框架
python面试题01
最新推荐文章于 2024-05-02 23:41:03 发布
本文介绍了Python爬虫面试中常见的知识点,包括Scrapy框架的基本理解,如其异步特性、优势和不足;HTTP与HTTPS的区别、应用场景及其优缺点;HTTPS安全证书的来源与申请;GET和POST请求的不同;以及为何在分布式爬虫中选择Redis数据库,强调了Redis的高速读取效率和主从同步能力。
摘要由CSDN通过智能技术生成