这篇文章会说说我自己的心得体验,关于爬虫、关于工作,仅供参考。
学到哪种程度
暂且把目标定位初级爬虫工程师,简单列一下吧:
(必要部分)
-
语言选择:一般是了解Python、Java、Golang之一
-
熟悉多线程编程、网络编程、HTTP协议相关
-
开发过完整爬虫项目(最好有全站爬虫经验,这个下面会说到)
-
反爬相关,cookie、ip池、验证码等等
-
熟练使用分布式
(非必要,建议)
-
了解消息队列,如RabbitMQ、Kafka、Redis等
-
具有数据挖掘、自然语言处理、信息检索、机器学习经验
-
熟悉APP数据采集、中间人代理
-
大数据处理(Hive/MR/Spark/Storm)
-
数据库Mysql,redis,mongdb
-
熟悉Git操作、linux环境开发
-
读懂js代码,这个真的很重要
如何提升
随便看看知乎上的教程就可以入门了,就Python而言,会requests当然是不够的,还需要了解scrapy和pyspider这两个框架,scrapy_redis也是需要理解原理的。
分布式如何搭建、如何解决其中遇到内存、速度问题。
什么叫全站爬取
最简单的拿拉钩来举例,搜索关键词,有30页,不要以为把这30页爬完就是全站爬取了,你应该想方法把所有数据全部爬下来。
什么办法,通过筛选缩小范围,慢慢来就OK了。
同时,每个职位还会有推荐职位,再写一个采集推荐的爬虫。
这个过程需要注意的是如何去重,Mongo可以、redis也可以
实际项目经验
这个面试中肯定会被人问道,如:
-
你爬过哪些网站
-
日均最大采集量是多少
-
你遇到哪些棘手问题,如何解决
-
等等
那么怎么找项目呢?比如我要爬微博数据,去Github中搜索下,项目还算少吗?
模拟登陆其实就是一步步的请求,保存cookie会话
语言选择
我自己建议是Python、Java、Golang最好都了解,Java爬虫的也很多,但是网上教程几乎都是Python的,悲哀。
最后说下Golang,Golang真的很牛逼,说个数字,Golang可以每分钟下载网页数量 2W ,Python可以吗~~
关于反爬
常见的 UA、Refer等需要了解是什么东西,有些验证的ID如何产生的,是否必要;关于IP池这块我不了解,不多说,需要注意的是如何设计拉黑机制;模拟登陆也是必要的,fuck-login 可以研究下代码,或者提PR。
如何判断能力足够
很简单,给个任务,爬取知乎上所有问题。
你会如何思考并设计这个项目?
关于Python学习指南
学好 Python 不论是就业还是做副业赚钱都不错,但要学会 Python 还是要有一个学习规划。最后给大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!
包括:Python激活码+安装包、Python web开发,Python爬虫,Python数据分析,人工智能、自动化办公等学习教程。带你从零基础系统性的学好Python!
👉Python所有方向的学习路线👈
Python所有方向路线就是把Python常用的技术点做整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。(全套教程文末领取)
👉Python学习视频600合集👈
观看零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
温馨提示:篇幅有限,已打包文件夹,获取方式在:文末
👉Python70个实战练手案例&源码👈
光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
👉Python大厂面试资料👈
我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。
👉Python副业兼职路线&方法👈
学好 Python 不论是就业还是做副业赚钱都不错,但要学会兼职接单还是要有一个学习规划。
👉 这份完整版的Python全套学习资料已经上传,朋友们如果需要可以扫描下方CSDN官方认证二维码或者点击链接免费领取【保证100%免费
】
点击免费领取《CSDN大礼包》:Python入门到进阶资料 & 实战源码 & 兼职接单方法 安全链接免费领取
![](https://img-blog.csdnimg.cn/img_convert/b7f34e0201c8824ad30a7d231ba82bd8.jpeg)