大学生创业创新项目,如今到了中期回报的阶段,感觉没有做什么,单干劲儿也做了很多
当初分配任务的时候,我是负责爬虫和tk界面的,不得不说我一个人揽了这两个活也不算少了,相比其他人也算可以得了吧
这么久了,学到的不少,单是大部分都是使用技能而不是我所想象的,真的不想成为一个码农,码奴,该觉那样的生活乏味而没有意义
那样的生活跟混吃等死又有什么区别呢?哎。
总结一下吧:
python爬虫的历程:
urllib->requests->selenium+chromedriver->selenium+phantomjs
期间也研究了一下scrapy但也是到了如今这段时间了,心里想考研,但却抵触政治,但是还是把爬虫这块的工作撂下了
urllib是最简洁最方便的,但是太容易被封了,反反爬虫技术:建立Opener使用代理ip,sleep,都是比较简单的反反爬虫,意义不大,但是效率很高
requests可以构造头部,可以传参数,可以代理ip,可以加载一部分动态页面,不得不说,是要比urllib好一些的
selenium + chromedriver第一次接触是为了模拟登录,获取cookie带cookie访问,不得不说,还是蛮好用的,当初是结合着requests用的,不久前的一段时间才发现可以获取page_source属性,来直接分析,那样作用大大提升
selenium + phantomjs当初遇到js加载的页面时候的焦头烂额