python面试题及答案 2019-这些2019年常考的Python面试题你都能答上来吗？

最新推荐文章于 2020-12-10 12:54:42 发布

weixin_39519741

最新推荐文章于 2020-12-10 12:54:42 发布

阅读量91

点赞数

一、遇到过得反爬虫策略以及解决方法?

1.通过headers反爬虫

2.基于用户行为的发爬虫：(同一IP短时间内访问的频率)

3.动态网页反爬虫(通过ajax请求数据，或者通过JavaScript生成)

4.对部分数据进行加密处理的(数据是乱码)

解决方法：

对于基本网页的抓取可以自定义headers,添加headers的数据

使用多个代理ip进行抓取或者设置抓取的频率降低一些，

动态网页的可以使用selenium + phantomjs 进行抓取

对部分数据进行加密的，可以使用selenium进行截图，使用python自带的pytesseract库进行识别，但是比较慢最直接的方法是找到加密的方法进行逆向推理。

二、 urllib 和 urllib2 的区别?

urllib

和urllib2都是接受URL请求的相关模块，但是urllib2可以接受一个Request类的实例来设置URL请求的headers，urllib仅可以接受URL。urllib不可以伪装你的User-Agent字符串。

urllib提供urlencode()方法用来GET查询字符串的产生，而urllib2没有。这是为何urllib常和urllib2一起使用的原因。

三、列举网络爬虫所用到的网络数据包，解析包?

网络数据包 urllib、urllib2、requests

解析包 re、xpath、beautiful soup、lxml

四、简述一下爬虫的步骤?

确定需求;

确定资源;

通过url获取网站的返回数据;

定位数据;

存储数据。

五、遇到反爬机制怎么处理?

反爬机制:

headers方向

判断User-Agent、判断Referer、判断Cookie。

将浏览器的headers信息全部添加进去

注意：Accept-Encoding;gzip,deflate需要注释掉

六、常见的HTTP方法有哪些?

GET：请求指定的页面信息，返回实体主体;

HEAD:类似于get请求，只不过返回的响应中没有具体的内容，用于捕获报头;

POST：向指定资源提交数据进行处理请求(比如表单提交或者上传文件)，。数据被包含在请求体中。

PUT:从客户端向服务端传送数据取代指定的文档的内容;

DELETE：请求删除指定的页面;

CONNNECT：HTTP1.1协议中预留给能够将连接方式改为管道方式的代理服务器;

OPTIONS:允许客户端查看服务器的性能;

TRACE：回显服务器的请求，主要用于测试或者诊断。

七、说一说redis-scrapy中redis的作用?

它是将scrapy框架中Scheduler替换为redis数据库，实现队列管理共享。

优点：

可以充分利用多台机器的带宽;

可以充分利用多台机器的IP地址。

八、遇到的反爬虫策略以及解决方法?

通过headers反爬虫：自定义headers，添加网页中的headers数据。

基于用户行为的反爬虫(封IP)：可以使用多个代理IP爬取或者将爬取的频率降低。

动态网页反爬虫(JS或者Ajax请求数据)：动态网页可以使用 selenium + phantomjs 抓取。

对部分数据加密处理(数据乱码):找到加密方法进行逆向推理。

九、如果让你来防范网站爬虫，你应该怎么来提高爬取的难度 ?

判断headers的User-Agent;

检测同一个IP的访问频率;

数据通过Ajax获取;

爬取行为是对页面的源文件爬取，如果要爬取静态网页的html代码，可以使用jquery去模仿写html。

免责声明：内容和图片源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

weixin_39519741

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python面试题及答案 2019-这些2019年常考的Python面试题你都能答上来吗？

一、遇到过得反爬虫策略以及解决方法?1.通过headers反爬虫2.基于用户行为的发爬虫：(同一IP短时间内访问的频率)3.动态网页反爬虫(通过ajax请求数据，或者通过JavaScript生成)4.对部分数据进行加密处理的(数据是乱码)解决方法：对于基本网页的抓取可以自定义headers,添加headers的数据使用多个代理ip进行抓取或者设置抓取的频率降低一些，动态网页的可以使用seleni...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。