杂记

最新推荐文章于 2021-07-21 10:47:19 发布

JimmyMcgilI

最新推荐文章于 2021-07-21 10:47:19 发布

阅读量185

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/smh2208/article/details/80956410

版权

7月7日。

--------------------------------------------------------------

距离刚开始学爬虫，已经近一个半月，6月8号买的爬虫书，这一个月算是努力了一下，自己也喜欢这种每天都有目标的状态，感觉很好，很充实。回顾一下这一个月以来写的爬虫：头条街拍，淘宝，网易云相册，简书，微博（m.weibo.cn)，豆瓣电影分类，其中头条、淘宝、微博都是书上的例子，但是我也尽量自己从头实现了一遍，也尽量用两种方式实现：requests+beautifulsoup和scrapy，其中的坑，只有踩过才懂。列几个感觉还需要深入的地方：

1.微博验证码登陆，m.weibo.cn不需要登陆也可以访问大量接口，让技术难度一下子降低了很多

2.速度。实测用scrapy爬取的时候，速度并不是很快，可能是settings文件还没有调教好？实测下爬同一个网站网易云相册，requests+beautifulsoup的速度往往比scrapy快不少。settings中有一个的请求并发数参数，默认值是16，而这个设置默认是注释了的，不知道改一改会怎么样。明天测试一下。

3.海量数据存储，至今为止爬的最多的数据是微博，爬下来的数据也不过30w+，想办法用分布式把爬虫速度提上去就能存储尽可能的数据。

4.爬虫部署，写了几个爬虫，都只在本地运行，想办法部署到服务器上，稳定跑起来，目前想到的是部署方式是阿里云服务器。

7月8日

--------------------------------------------------------------

今天改写了一下简书的爬虫，去掉了随机延时，简书可能需要被搜索引擎尽可能的获取页面，对爬虫的限制很少，我10多个小时就爬下来了30w的数据。

同时还写了京东商品评论的爬虫，从搜索商品名称入口，获得搜索结果的商品列表，以此爬取各商品的评论数据。京东的反爬虫挺严，但比淘宝差点，还不需要上selenium，测试了下爬了6k条评论，并没有被京东封掉。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。