python爬虫在哪里学_学完了python基础想学习python爬虫从哪里学起呢?

针对Python爬虫,我还是有一定的话语权的

我之前就是先学习Python基础,然后用Python做了几个网站,后面需要数据,所以开始学习Python的爬虫技术。

关于Python方面的爬虫,

最基础的用法实际上就是一个函数库,这个函数库的名字叫做request库,在request的参数里面可以传递你需要爬取的URL,你的ip代理地址,和浏览器的header,这三个参数是最重要的,因为ip代理和浏览器header需要伪装,这是反爬虫最基础的知识

一段时间后,你发现你的爬虫程序单击肯定是不够用了,你需要分布式爬虫提高效率,所以这个时候就涉及到另外一个分布式爬虫框架scrapy

一般大型爬虫项目是需要使用这个框架的,甚至其中如果涉及到高并发的话,那么一般还会涉及到scrapy redis框架(guthub项目)

等到你需要爬取的网站越来越复杂,甚至其中很多网站都使用了动态JavaScript技术去解析网页,还有很多网页会不断的跳出验证码,需要人工输入。这个时候就需要结合另外一个叫做Splash的框架,专门用来伪造cookies,自动登录验证等等动态的爬取

等到这些框架基本上很熟悉之后,你可能会涉及到自己从头开发一个定制框架,那个就涉及到更高阶的爬虫领域。

这个时候你就已经小有所成了。

我们项目已经结合了上述所有的框架,在这方面也有比较丰富的经验,如果你对这一块感兴趣,可以随时和我共同探讨。祝你成功!

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值