杂记

7月7日。

--------------------------------------------------------------

距离刚开始学爬虫,已经近一个半月,6月8号买的爬虫书,这一个月算是努力了一下,自己也喜欢这种每天都有目标的 状态,感觉很好,很充实。回顾一下这一个月以来写的爬虫:头条街拍,淘宝,网易云相册,简书,微博(m.weibo.cn),豆瓣电影分类,其中头条、淘宝、微博都是书上的例子,但是我也尽量自己从头实现了一遍,也尽量用两种方式实现:requests+beautifulsoup和scrapy,其中的坑,只有踩过才懂。列几个感觉还需要深入的地方:

1.微博验证码登陆,m.weibo.cn不需要登陆也可以访问大量接口,让技术难度一下子降低了很多

2.速度。实测用scrapy爬取的时候,速度并不是很快,可能是settings文件还没有调教好?实测下爬同一个网站网易云相册,requests+beautifulsoup的速度往往比scrapy快不少。settings中有一个的请求并发数参数,默认值是16,而这个设置默认是注释了的,不知道改一改会怎么样。明天测试一下。

3.海量数据存储,至今为止爬的最多的数据是微博,爬下来的数据也不过30w+,想办法用分布式把爬虫速度提上去就能存储尽可能的数据。

4.爬虫部署,写了几个爬虫,都只在本地运行,想办法部署到服务器上,稳定跑起来,目前想到的是部署方式是阿里云服务器。

7月8日

--------------------------------------------------------------

今天改写了一下简书的爬虫,去掉了随机延时,简书可能需要被搜索引擎尽可能的获取页面,对爬虫的限制很少,我10多个小时就爬下来了30w的数据。

同时还写了京东商品评论的爬虫,从搜索商品名称入口,获得搜索结果的商品列表,以此爬取各商品的评论数据。京东的反爬虫挺严,但比淘宝差点,还不需要上selenium,测试了下爬了6k条评论,并没有被京东封掉。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值