针对Python爬虫,我还是有一定的话语权的
我之前就是先学习Python基础,然后用Python做了几个网站,后面需要数据,所以开始学习Python的爬虫技术。
关于Python方面的爬虫,
最基础的用法实际上就是一个函数库,这个函数库的名字叫做request库,在request的参数里面可以传递你需要爬取的URL,你的ip代理地址,和浏览器的header,这三个参数是最重要的,因为ip代理和浏览器header需要伪装,这是反爬虫最基础的知识
一段时间后,你发现你的爬虫程序单击肯定是不够用了,你需要分布式爬虫提高效率,所以这个时候就涉及到另外一个分布式爬虫框架scrapy
一般大型爬虫项目是需要使用这个框架的,甚至其中如果涉及到高并发的话,那么一般还会涉及到scrapy redis框架(guthub项目)
等到你需要爬取的网站越来越复杂,甚至其中很多网站都使用了动态JavaScript技术去解析网页,还有很多网页会不断的跳出验证码,需要人工输入。这个时候就需要结合另外一个叫做Splash的框架,专门用来伪造cookies,自动登录验证等等动态的爬取
等到这些框架基本上很熟悉之后,你可能会涉及到自己从头开发一个定制框架,那个就涉及到更高阶的爬虫领域。
这个时候你就已经小有所成了。
我们项目已经结合了上述所有的框架,在这方面也有比较丰富的经验,如果你对这一块感兴趣,可以随时和我共同探讨。祝你成功!