爬虫工作的小总结

最新推荐文章于 2020-12-01 15:05:44 发布

Since_you

最新推荐文章于 2020-12-01 15:05:44 发布

阅读量1.1k

点赞数

分类专栏：生活笔记

本文链接：https://blog.csdn.net/Since_you/article/details/95657832

版权

生活笔记专栏收录该内容

2 篇文章

订阅专栏

前言

不得不说爬虫确实是一个有趣的“杂学”，为什么这么理解呢？我刚开始接触到爬虫，是因为自己无意间想学习python，爬虫又是一个比较快入手的学习方向，也是一个很好的就业方向，就开始学习爬虫。本就着大道至简的道理，佛系学习原则，从刚开始的python基础，数据结构，函数，类，到后面学习爬虫的基础模块，requests，urllib，selenium，还要学习一些前端的知识，学习了这些以后，基本上能解决大部分的爬虫开发了。本想着到这就结束了，陆陆续续在工作中遇到了js问题，不懂咋办，去学习呀！学习了一些js逆向知识，chrome断点调试。数据量需求越来越大，学习多进程，多线程，协程，scrapy框架，后面的分布式爬虫。。。目前还没接触到app逆向，反编译等。。。爬虫确实是一个很有意思的“杂学”，感觉啥都要接触，但很多知识只需要能看得懂就好。

总结

入职以来，简单说下自己的一些感受吧。爬虫的脚本开发，一定要简单清晰明了。注释一定要写完整，结构一定要规范。网页结构随时都可能在变化，有可能一个脚本写完，下个月就用不了。一个好的爬虫脚本需要在这样的环境下，迅速重构完成。免得重复造轮子，再写一遍就会很浪费时间。另外我们还需要对每一个爬虫脚本定制不一样的采集方案，以达到最佳的效果。比如说这个网站采用多进程，这个网站使用redis去重，保存到mongodb，这个网站使用多线程或者协程，这个网站用scrapy框架，这些都需要一些经验累积来选择。项目做多了，对一些反扒也能处理的得心应手了。我们要发挥python语言的优势，可选择性太多，有很多库我们都可以结合到爬虫开发当中来，来提高我们的效率。不过我们在采集的时候，一定要铭记一个真理，不是脚本越快越好。在保证速度的前提下，一定要减少bug的出现可能性，脚本的稳定运行，也是至关重要。同时还要兼顾网站的负载，考虑别人也是在为我们自己提供便捷。

建议

爬虫工程师在如今的大数据时代确实是一个很吃香的职业，但是在工作中，老和同事调侃，“爬虫从入门到入狱”，这是要告诉我们采集数据一定要符合一些规定，不能肆意妄为。很多的同事都已经开始学习机器学习，往数据挖掘方向发展。毕竟数据只是原材料，要想产生更有价值的东西，那就要进行加工，做数据建模，分析了。这个方面也是仁者见仁，智者见智，不管怎样，每一位大牛都是从一个小白开始的，秉持初心，砥砺前行。同时欢迎访问个人博客主页… …