爬虫初识(字符串和HTTP/HTTPS)

本文介绍了Python3字符串的区别和转化,包括str和bytes类型,以及转化方法。接着讲解了HTTP和HTTPS的基本概念,HTTP的工作原理,如无连接、媒体独立和无状态特性。还提到了开发者工具的使用,特别是HTTP请求的组成部分,如请求方法、请求头和响应状态码。最后讨论了常见的HTTP响应状态码及其含义。
摘要由CSDN通过智能技术生成
字符串类型的区别和转化

为什么要掌握Python3字符串的相关知识?
如下,一个简单爬虫的流程图
在这里插入图片描述
在流程图中可以看到,在爬虫中我们有很多步骤都需要与字符串打交道,尤其是在提取数据方面。

字符类型

str类型:
unicode的呈现形式

bytes类型:
二进制,互联网上的数据都是以二进制的方式传输的

字符类型的转化

·str使用encode方法转化为bytes
·bytes通过decode方法转化为str
·编码方式解码方式必须一样,否则会出现乱码
在这里插入图片描述

HTTP和HTTPS

HTTP
·超文本传输协议
·默认端口号:80
超文本传输协议(Hypertext Transfer Protocol,HTTP)是一个简单的请求-响应协议,它通常运行在TCP之上。它指定了客户端可能发送给服务器什么样的消息以及得到什么样的响应。(了解即可)

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值