程序员生涯,接触数据采集后,头发掉的飞快

最新推荐文章于 2024-07-20 17:12:48 发布

骷髅咸鱼

最新推荐文章于 2024-07-20 17:12:48 发布

阅读量674

点赞数 1

文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42120895/article/details/128062660

版权

我是一名程序员，我的第一份工作是做ERP的公司，之后公司又添加了电商的业务线，电商有个特点他们天天后半夜打单发货，一有问题就得半夜从被窝里爬出来修改，在公司干了10年，最后实在扛不住了，换了一份工作，是做外贸拓客系统，这个客户群体非常好，只有工作日才用软件，休息时间几乎没有问题。

这份工作让我接触了数据采集，主要是采集各大社媒平台的联系方式，还有搜索引擎。

说句非常霸道的话“只要在浏览器看见的内容，都能给你采集下来”，事实真的是如此吗？

事实就是如此，“但是”就怕这个“但是”，哈哈，这些大的平台都有很麻烦的反爬技术

反爬方式

第一，人机验证，你访问多了他就出验证码，这些验证码就千奇百怪了

消耗人民币策略来了，上打码平台，这些验证码交给平台，平台的背后也是人来识别，咱把他识别好的结果去过网站上的验证，一般是1000个验证码，3美元

第二，封ip，使用同一个ip访问多了，就访问不了了

消耗人民币策略来了，ip代理，国内ip相对比较便宜，我们用不上国内ip也没研究它，国外ip，按流量计费，比如1G=2美元，这还是便宜的机房ip，还有住宅ip这个相对更贵，使用这种ip采集价值比较高，我感觉他们是在客户电脑装有小后门，它不是毒只是做了一下代理，你也不知道

第三，必须账号密码才能登陆的系统，被人发现，就是封账号

消耗人民币策略来了，这个办法牛逼了，在注册一个账号，哈哈，简单有效。我曾经遇到过一个是邮箱注册的网站，我搭建了一个邮件系统，获取邮件中的验证码，自动注册账号，最后给我这个域名后缀的都给封了，不让注册，遇到这种情况，要是可以买一个VIP，这样一般不封

这三个都是需要花钱的，其他方式都可以通过技术越过去

采集方式

第一，直接通过get/post请求获取内容，这种最舒服，速度快，程序还好写

第二，需要浏览器自动化脚本，我使用的是python+selenium，这种采集速度慢，写起来复杂

第三，这种方式其实是第二种的一个扩展，使用mitmproxy代理，可以直接取到后台响应的json数据，在这个基础上在深挖，就是研究网站的js，直接调用js方法触发后台请求，就可以在页面不动的情况下获取内容，研究对方网站js是最掉头发的事情，js不压缩的还好，要是遇到npm打包的项目，眼泪都得下来，需要一点点解读分析

这就是我采集数据这些年的总结，谢谢大家的阅读，第一次写文章，希望大家支持。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
程序员生涯,接触数据采集后,头发掉的飞快

我是一名程序员，我的第一份工作是做ERP的公司，之后公司又添加了电商的业务线，电商有个特点他们天天后半夜打单发货，一有问题就得半夜从被窝里爬出来修改，在公司干了10年，最后实在扛不住了，换了一份工作，是做外贸拓客系统，这个客户群体非常好，只有工作日才用软件，休息时间几乎没有问题。这份工作让我接触了数据采集，主要是采集各大社媒平台的联系方式，还有搜索引擎。说句非常霸道的话“只要在浏览器看见的内容，都能给你采集下来”，事实真的是如此吗？事实就是如此，“但是”就怕这个“但是”，哈哈，这些大的平台
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。