“入门”是良好的动机,但是可能作用缓慢。如果你手里或者脑子里有一个项目,那么实践起来你会被目标驱动,而不会像学习模块一样慢慢学习。
1.当你通过网上的各种教程学会了,爬个妹子图,糗事百科之类的简单的网站的时候,那么你对于爬虫的基 本逻辑结构就有了一个大概的了解,学会了 urllib/urllib2 (Py2 和 Py3 urllib有区别),但是很快,
你在某 个阳光明媚的下午邂逅了优雅的一塌糊涂 requests ,你突然发现,ci‘ao!这才是给Pythoner 用的啊, 没错 requests Requests: HTTP for Humans 就是为人类写的,于是你在心中默默的送给 urllib 一个万个 “你大爷的”,然后和挥手惜别。
2.当你完成一个网站的模拟登录,基本就可以算是是入门了,因为你对于网站的各种 http/https 请求已经非 常熟悉了,懂得了 get post cookies session 这些都是什么鬼,顺便学会了 Python 的异常处理,如果对 Python 处理还不了解,可以直接私信我“01” 我有不少python的教程都可以直接发给你们的,都是十足的干货。
3.当然在模拟登录网站的过程中,你开始接触到正则表达式,知道 .* 和 .*? 了的区别和 () 的作用,慢慢地, 你已经不能忍受你写的复杂的正则表达式了,这时候 beautifulsoup 和 lxml 来到了你的身边,就是你的情 人一样,带给你不一样的美好体验,可是永远不要忘记 re 才是你的妻子。
4.当然模拟登录的过程中,你还会掌握一门挖掘机技术,不是是抓包技术,额,等等,抓包是什么鬼。你在 论坛或者别的地方,求助怎么模拟登录和抓取异步加载的网页的时候,大神们都会用 “抓包分析下” 甩你一 脸。经常使用的抓包工具有 浏览器(推荐 Chrome ), fidder, wireshark 等抓包工具。对于爬虫遇到的网络 抓包分析, chrome 浏览器功能足够了,(在浏览器的隐身模式下,抓包分析更佳哦,ctrl+shift+N 快捷 键)。
5.当你遇到抓包分析,解决不了的问题的时候,你将会修炼一门在百度的帮助下读懂js源码的能力,至于 html css 这些,你早就和他们有了无数次的亲密接触了,虽然写不出来,但是理解他们应该没有问题