1:明白爬虫的本质,最最核心,简单的逻辑原理
抓网页,解析网页。。。在此基础上,可以通过各种技术提升性能。(如:集群,多线程。采用框架等)
通过http请求,返回的整个html网页就是个字符串,就是个字符串,就是个字符串!!!!!(解决了我长时间的困惑)
然后,针对这个字符串进行正则表达式的模式匹配。
所谓的javascript技术,css等,也就是在字符串中以某种模式存在。不用去烦心这个。
动态登录,模拟登录,都是关于 http请求的。
2:学习并且学到点 正则表达式。(解决了,不知道如何入手学习正则表达式。)
开了个头,自己慢慢学下去。
3:通过爬虫,学习python的基础知识
4:爬虫做的深入一些,就设计到多线程,集群等
5:Scrapy框架,就是为了解决这些性能问题的。。。所以说,还是应该先学基础原理,再去学习框架。要不然,就像我以前一样,越往后越来越找不到方向,云里雾里,很不踏实的感觉。
未完,待续。。。。。