1.爬虫概念
1.1什么是爬虫?
1.2哪些语言可以实现爬虫?
1.3爬虫分类
通用爬虫,聚焦爬虫
通用爬虫
通用爬虫如何获取新网站?
检索排名
robots.txt
聚焦爬虫
根据特定需求,抓取指定的数据。
概要
2.HTTP协议
双方规定的传输形式,应用层的协议.
ftp(21) http(80)\https(443) ssh(22) mysql(3306) redis(6379) momgo(27017)
2.1HTTP和HTTPS的区别
主要区别
公钥与私钥
2.2HTTP请求
请求行,若干消息头,实体内容。
请求行
get url地址附带,?之后,&连接,小于1k。
post 提交表单,数据量无限大。
消息头
X-Requested-With: ajax
2.3HTTP响应内容
状态行,若干消息头,实体内容
状态行
200 成功
300 重定向
400 禁止访问
500 服务器问题
请求消息头
3.Fiddler
抓包工具
3.1浏览器自带也有(Network)
3.2fiddler
1.配置
2.抓包