爬虫基础知识

爬虫基础知识

  • 爬虫是模拟客户端发生网络请求,接受请求响应
  • http:超文本传输协议
  • https:http+ssl(安全套接字层)

url形式:scheme://host[:port#]/path/.../[?query_string][#anchor]

  • scheme://host[:port#]/path/.../[?query_string][#anchor]
  • host:服务器的ip地址和域名
  • port:服务器的端口(如果是走协议默认端口,80or443)
  • path:访问资源的路径
  • query:参数,发送给http服务器的数据
  • anchor:锚(跳转到网页的制定锚点位置)

HTTP常见请求头

  • host:主机和端口号
  • connection:链接类型
  • upgrade-insecure-requests:升级为https请求
  • user_agent:浏览器名称
  • accept:传输文件类型
  • refer:页面跳转处
  • accept-encoding:文件编码解码个数
  • cookie:保持在本地的coookie信息
  • x-requested-with:XMLHttpRequest:是Ajax异步加载

请求方法 GET&POST

  • GET是从服务器上获取数据,POST是向服务器传送数据

  • GET请求参数显示,都显示在浏览器网址上,HTTP服务器根据该请求所包含URL中的参数来产生响应内容,即“Get”请求的参数是URL的一部分。 例如: http://www.baidu.com/s?wd=Chinese

  • POST请求参数在请求体当中,消息长度没有限制而且以隐式的方式进行发送,通常用来向HTTP服务器提交量比较大的数据(比如请求中包含许多参数或者文件上传操作等),请求的参数包含在“Content-Type”消息头里,指明该消息体的媒体类型和编码,

注意:避免使用Get方式提交表单,因为有可能会导致安全问题。 比如说在登陆表单中用Get方式,用户输入的用户名和密码将在地址栏中暴露无遗

响应状态码

  • 200:成功
  • 302:临时转移至新的url
  • 307:临时转移至新的url
  • 404:not found
  • 500:服务器内部错误
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值