【python爬虫】--拉钩网（requests库）

最新推荐文章于 2021-11-22 22:01:03 发布

药师兄

最新推荐文章于 2021-11-22 22:01:03 发布

阅读量381

点赞数

文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41676125/article/details/81014586

版权

背景：自学python，近段时间在找工作。抱着“所学不能应用于实际，那一切便毫无意义”的想法，写了个对拉钩网的爬虫。中途被拉钩的反爬机制弄的有点抓狂，最后终于在挂代理+设置随机等待时长的方法下写完了。

开发环境

语言： python 2.7

系统： VMware下的ubuntu16.04

工具： Fiddler 4 、Vim、xpath-helper

代码

hzw350的github

毒点

拉钩搜索结果界面以Ajax加载，详情页的url地址藏在json文件中，需要比对。
如果不换IP地址，每次爬取至少需要等待10s以上，否则爬取到5~6个结果的时候还会被反爬掉。
请求头需要完整填写，单个User-Agent出来的是不同页面。 # 没做多次尝试，可能只需其中几个就够了。
搜索界面与详情页的headers需要单独分开。

错漏

爬取拉钩并不需要用户账号密码，写之前未分析清除，增加了无意义代码量。 # 从这也看出拉钩并不封禁账号……
承上条，因为账户关系，使用了requests.seession()方法留存cookie值，留下痕迹。
挂上代理池等待时长应该是可以省略的，稍微延迟减少对对方服务器压力即可。

改进方向

删除登陆界面相关代码，直接用post方法请求即可。
使用代理池可将随机等待时长删去，提高程序运行效率。
xpath处理后数据仍然存在空格或者其他不明符号，需要再做清理。

学习方向

数据清洗入库，以re和字符串处理为主，pandas酌情。
结合scrapy进行多线程大量数据的爬取。

若有疏漏或者错误的地方，还请各位大佬指出，感谢。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。