网络爬虫工程师的晋级之路，网络爬虫涉及哪些技术？

最新推荐文章于 2024-07-17 23:50:36 发布

afei9421

最新推荐文章于 2024-07-17 23:50:36 发布

阅读量2k

点赞数 12

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/afei9421/article/details/81109163

版权

初级爬虫工程师：

Web前端的知识：HTML, CSS, JavaScript, DOM, DHTML, Ajax, jQuery,json等；
正则表达式，能提取正常一般网页中想要的信息，比如某些特殊的文字，链接信息，知道什么是懒惰，什么是贪婪型的正则；
会使用re, BeautifulSoup，XPath等获取一些DOM结构中的节点信息；
知道什么是深度优先，广度优先的抓取算法，及实践中的使用规则；
能分析简单网站的结构，会使用urllib，urllib2或requests库进行简单的数据抓取；

中级爬虫工程师：

了解什么是Hash，会使用简单的MD5,SHA1等算法对数据进行Hash以便存储；
熟悉HTTP,HTTPS协议的基础知识,了解GET，POST方法,了解HTTP头中的信息，包括返回状态码，编码，user-agent，cookie，session等；
能设置User-Agent进行数据爬取，设置代理等；
知道什么是Request，什么是Response，会使用Fiddle, Wireshark等工具抓取及分析简单的网络数据包；对于动态爬虫，要学会分析Ajax请求，模拟制造Post数据包请求，抓取客户端session等信息，

最低0.47元/天解锁文章

关注

12
点赞
踩
21

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。