爬虫（一）：爬虫的基础知识 ---通用爬虫和聚焦爬虫，http和https协议，常见的响应状态码

梦醒时光@

已于 2023-03-22 23:53:58 修改

阅读量503

点赞数 2

分类专栏：爬虫文章标签：爬虫 python http

于 2020-05-24 21:58:20 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_32718195/article/details/103587452

版权

一、爬虫的定义

网络爬虫是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。

二、爬虫可以解决的问题

解决冷启动问题

搜索引擎的根基。 —通用爬虫

帮助机器学习建立知识图谱

制作各种比价软件

三、爬虫工程师的进阶之路

初级爬虫工程师

web前端的知识

HTML、CSS、Javascript、DOM、DHTML、Ajax、jQuery、json等
正则表达式

能提取正常一般网页中想要的信息，比如：某些特殊的文字，链接信息，知道什么是懒惰，什么是贪婪型的正则；
会使用 XPath 等获取一些 DOM 结构中的节点信息；
知道什么是深度优先，广度优先的抓取算法，以及实践中的使用规则；
能分析简单网站的结构，会使用 urllib 或 requests 库进行简单的数据抓取。

中级爬虫工程师

了解什么是 HASH ，会简单地使用 MD5，SHA1 等算法对数据进行 HASH 一遍存储
熟悉 HTTP，HTTPS 协议的基础知识，了解 GET，POST 方法，了解 HTTP 头中的信息，包括返回状态码，编码， user-agent ， cookie ，sesssion 等
能设置 user-agent 进行数据爬取，设置代理等
知道什么是 Request，什么是 response，会使用 Fiddler 等工具抓取即分析简单地网络数据包；对于动态爬虫，要学会分析 ajax 请求，模拟制造 post 数据包请求，抓取客户端 session等信息，对于一些简单的网站，能够通过模拟数据包进行自动登录。
对于一些难搞定的网站学会使用 phantomjs + selenium 抓取一些动态网页信息
并发下载，通过并行下载加速数据爬取；多线程的使用

最低0.47元/天解锁文章

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
爬虫（一）：爬虫的基础知识 ---通用爬虫和聚焦爬虫，http和https协议，常见的响应状态码

1.通用爬虫和聚焦爬虫2.http 和 https 3.请求报头和响应报头4.响应状态码
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。