7月7日。
--------------------------------------------------------------
距离刚开始学爬虫,已经近一个半月,6月8号买的爬虫书,这一个月算是努力了一下,自己也喜欢这种每天都有目标的 状态,感觉很好,很充实。回顾一下这一个月以来写的爬虫:头条街拍,淘宝,网易云相册,简书,微博(m.weibo.cn),豆瓣电影分类,其中头条、淘宝、微博都是书上的例子,但是我也尽量自己从头实现了一遍,也尽量用两种方式实现:requests+beautifulsoup和scrapy,其中的坑,只有踩过才懂。列几个感觉还需要深入的地方:
1.微博验证码登陆,m.weibo.cn不需要登陆也可以访问大量接口,让技术难度一下子降低了很多
2.速度。实测用scrapy爬取的时候,速度并不是很快,可能是settings文件还没有调教好?实测下爬同一个网站网易云相册,requests+beautifulsoup的速度往往比scrapy快不少。settings中有一个的请求并发数参数,默认值是16,而这个设置默认是注释了的,不知道改一改会怎么样。明天测试一下。
3.海量数据存储,至今为止爬的最多的数据是微博,爬下来的数据也不过30w+,想办法用分布式把爬虫速度提上去就能存储尽可能的数据。
4.爬虫部署,写了几个爬虫,都只在本地运行,想办法部署到服务器上,稳定跑起来,目前想到的是部署方式是阿里云服务器。
7月8日
--------------------------------------------------------------
今天改写了一下简书的爬虫,去掉了随机延时,简书可能需要被搜索引擎尽可能的获取页面,对爬虫的限制很少,我10多个小时就爬下来了30w的数据。
同时还写了京东商品评论的爬虫,从搜索商品名称入口,获得搜索结果的商品列表,以此爬取各商品的评论数据。京东的反爬虫挺严,但比淘宝差点,还不需要上selenium,测试了下爬了6k条评论,并没有被京东封掉。