初识爬虫

一、初识爬虫

1.HTTP和HTTPS

  • HTTP
    • 超文本传输协议
    • 默认端口号:80
  • HTTPS
    • HTTP+SSL(安全套接字层)
    • 默认端口号:443

HTTPS比HTTP更安全,但是性能更低。

2.爬虫的概念

  • 爬虫是模拟浏览器发送请求,获取相应。

3.爬虫的流程

  • url–>发送请求,获取相应–>提取数据–>保存
  • 发送请求,获取相应–>提取url

4.URL格式和http请求格式

scheme:协议(例如:http,https,ftp)

host:服务器的IP地址或者域名

port:服务器的端口(如果是协议默认端口,80 or 443)

path:访问资源的路径

query-string:参数,发送http服务的数据

anchor:锚(跳转到网页的指定锚点位置)

http://localhost:4000/file/part01/1.2.html

http://item.jd.com/11936238.html#product-detail

5.HTTP常见请求头

1.Host(主机和端口号)

2.Connection(链接类型)

3.Upgrade-Insecure-Requests(升级为HTTPS请求)

4.User-Agent(浏览器名称)

5.Acceot(传输文件类型)

6.Referer(页面跳转处)

7.Accept-Encoding(文件编解码格式)

8.x-requested-with:XMLHttpRequest(是Ajax异步请求)

6.的请求方法

  • get:向某个地方获取一些数据,这个获取的过程可以理解为一个简单的查询
  • post:一般都是表单提交,可以在body里面携带数据。

7.常见相应状态码(status code)

  • 200:成功
  • 302:临时转移至新的url
  • 307:临时转移至新的url
  • 404:not found
  • 500:服务器内部错误

8.爬虫的定义

网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟客户端发送网络请求,接受请求相应,一种按照一定的规则,自动地抓取互联网信息地程序。

  • 只要是浏览器能做的事情,原则上,爬虫都能够做。

9.ROBOTS协议

Robots协议:网站通过Robots协议告诉搜索引擎那些页面可以抓取,那些页面不能抓取

  • 例如:https://www.taobao.com/robots.txt

其他

爬虫要根据当前url地址对应的相应为准,当前url地址的elements的内容和url的响应不一样

页面上的数据在哪里
  • 当前url地址对应的响应中
  • 其他url地址对应的响应中
    • 比如ajax请求中
  • js生成的
    • 部分数据在响应中
    • 全部通过js生成
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值