一次前同事聚会,还没聊两句,就得知同事小伟虽然没有找到工作,但是却收到了支付宝转账7890元。我开玩笑说,你这是找到新工作了?
没想到小伟说:“哎呀,这哪是工资啊,不是除了工作之外,我还有点副业儿吗?”在场的都吓了一跳
在我们的追问之下,小伟终于透露了她挣钱的秘籍:Python。
刚开始我们很不屑,觉得这不是程序员做的事吗
他说:他刚开始毕业的时候也是想着做好本职工作,但每次“一顿操作猛如虎,一看工资四千五”。
后来在朋友的劝说下意识到了自己做的都是琐事,没有进步空间。于是,学习了python,仅仅两个月,就上手了。第一次兼职的单也是朋友介绍,为一家公司爬数据,赚了一千多。从那之后逐渐熟练,常在假期接一些数据处理的单,很多时候兼职收入是主业收入的2~3倍。
接单要哪些技术?
爬虫,作为Python的王牌技术,是兼职接单的必备神技。其程序原理很简单,学起来很容易上手。普通网页爬虫通常只有四个步骤:目标信息网站、页面抓取、页面分析、数据存储。
吃透原理和步骤后,爬取普通网站的数据很轻松。当然,并不意味着这就够了,真正有价值的资源,往往都在有着完善反爬虫措施的大型站点中。
这时,就需要用到Python爬虫的重点技术——网站反爬虫策略及其应对方案。搞不定网站设置的反爬虫措施,就爬不到有价值的资源,更接不到高价值的单。
常见反爬虫措施:
-
目标检测出是爬虫封了IP
-
目标返回了加密过的数据
-
目标返回了脏数据,无法辨认
-
目标网站必须登录才能访问
-
Javascript动态渲染,爬虫无法读取
-
目标网站有验证码无法访问
-
ajax异步传输,爬虫抓取到空信息
-
图片伪装与混淆+CSS偏移+SVG映射