爬虫复盘1

1.获取网页url
url:统一资源定位符,是要爬取目标网页的地址,例如豆瓣电影:https://movie.douban.com/

2.发出请求 获得响应
用户在浏览器输入网址之后,经过DNS 服务器,找到服务器主机,向服务器发出访问请求,服务器经过解析之后,发送给用户的浏览器HTML、JS、CSS等文件,浏览器解析出来呈现给用户

3.提取所需要数据
服务器返回给浏览器的数据包括HTML 片段、XML 文档、JSON 文件等数据。针对不同数据选择不同的方式进行数据提取
常用解析方式有
re 正则表达式;

html.parser;

BeautifulSoup;

lxml(xpath技术);

ElementTree(解析xml)
4.保存数据
一般对规整化的数据直接保存成文件,放在本地。当然,也可以通过连接数据库保存在数据库中
浏览器请求
例如,当你在登录一个网站时,需要输入用户名和密码,此时会有两种数据请求方式:GET 方式和POST 方式。

GET方式:

直接将参数写在网址中,构建一个带参数的url。例如 https://www.wz.com?username=‘zhiqiuxiaomeng’&passwd=‘123456’,将 username 和 passwd 直接带入参数中。

POST方式:

将参数保存成一个变量,在请求过程中将变量发送给服务器。例如 values = {“username”:“zhiqiuxiaomeng”,“passwd”:“123456”},在发送请求的时候将 values 一起发送给服务器。

  1. 什么是服务器响应?

服务器在接收到浏览器请求后,对请求进行验证,并返回相应的验证结果给浏览器,浏览器对返回结果解析,呈现给用户。

服务器返回结果包括两种:一种是返回数据,在浏览器端进行刷新填充;一种是返回一个新的页面,在浏览器端进行跳转。数据类型包括 html、css、json 等。

  1. 什么是ascll、unicode?

ascll 编码:使用一个字节进行编码(因为英文和数字一个字节足够)

unicode 编码:使用两个字节进行编码(因为中文至少需要两个字节)

utf-8 编码:可变长编码,英文通常是1个字节,汉字是三个及以上(生僻字)字节(节省存储空间)

注:utf-8 编码是unicode 编码的实现方式之一

  1. 什么是 utf-8、gb2312、gbk、iso8859-1 ?

GB2312 是国家制定的汉字编码标准,使用双子节进行编码,共收入6763个汉字和682个非汉字图形字符。

GBK 即对国标编码的扩展,在GB2312 的基础上进行扩展形成的,使用双子节编码方式,共收入21003个汉字,从而大大满足了汉字使用的需要。

ISO-8859-1 编码是单字节编码 ,向下兼容ASCII,是许多欧洲国家使用的编码标准

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值