爬虫部分学习总结

最新推荐文章于 2024-08-10 10:09:09 发布

weixin_30244681

最新推荐文章于 2024-08-10 10:09:09 发布

阅读量62

点赞数

文章标签：爬虫 python

原文链接：http://www.cnblogs.com/cjj-zyj/p/10208973.html

版权

1.接触过几种爬虫模块：

　　urllib, requests

2.robots协议是什么：

　　 requests模块没有使用硬性的语法对该协议进行生效。

　　 scrapy硬性语法对该协议进行了生效

3.如何处理验证码：

　　　　云打码平台打码兔

4.掌握几种数据解析的方式：

　　　　正则、xpath、 bs4

5.如何爬取动态加载的页面数据：

　　（1）selenium

　　（2）ajax,抓包工具抓取异步发起的请求（url)

6.接触过哪些反爬机制？如何处理？

　　robots协议 UA 封IP

　　验证码，动态数据爬取，数据加密, token

7.在scrapy中接触过几种爬虫的类：

　　Spider, CrawlSpider, RedisCrawlSpider, RedisSpider

8.如何实现分布式流程：都依托scrapy-redis库

　　RedisCrawlSpider, RedisSpider

转载于:https://www.cnblogs.com/cjj-zyj/p/10208973.html

weixin_30244681

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫部分学习总结

1.接触过几种爬虫模块：　　urllib, requests2.robots协议是什么：　　 requests模块没有使用硬性的语法对该协议进行生效。　　 scrapy硬性语法对该协议进行了生效3.如何处理验证码：　　　　云打码平台打码兔4.掌握几种数据解析的方式：　　　　正则、xpath、 bs45.如何爬取动态加载的页面数据：　　（1...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。