最近在研究网站群的课程,正好老板让我收集一些网站数据库,是做一款采集百度搜索的网站域名软件,来做数据筛选。
于是我马不停蹄的开始干。
不做不知道。
我发现,百度的防爬虫机制是真严格,层层加密,验证码也超难破解,看的我头大,不行必须成功!.... 谁叫我是程序员呢! 于是我上网找解决办法。
真的是太难了。
看着网上那些无用的信息在看看我稀疏的头发..... 第一天晚上写得很多代码,终于功夫不负有心人成功了。
第二天醒来再测试一下,本想着封装软件了,才发现行不通,相关代码特征隔天就失效了,真让我恼火。
既然行不通,那就换个思路,模仿......不过要麻烦点...... 经过我三天的努力终于成功了,害 这次应该不会有问题了吧! 后面我又相继加入了搜狗、360、神马、必应等搜索引擎并发启动,多线程去采集。
速度这方面也是优化了很多次。
拿给老板看他很是满意,哈哈