爬虫复盘1

最新推荐文章于 2024-07-11 16:56:58 发布

墨渊

最新推荐文章于 2024-07-11 16:56:58 发布

阅读量139

点赞数

分类专栏：爬虫文章标签：爬虫 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43233737/article/details/120077775

版权

爬虫专栏收录该内容

17 篇文章 0 订阅

订阅专栏

1.获取网页url
url：统一资源定位符，是要爬取目标网页的地址，例如豆瓣电影：https://movie.douban.com/

2.发出请求获得响应
用户在浏览器输入网址之后，经过DNS 服务器，找到服务器主机，向服务器发出访问请求，服务器经过解析之后，发送给用户的浏览器HTML、JS、CSS等文件，浏览器解析出来呈现给用户

3.提取所需要数据
服务器返回给浏览器的数据包括HTML 片段、XML 文档、JSON 文件等数据。针对不同数据选择不同的方式进行数据提取
常用解析方式有
re 正则表达式；

html.parser；

BeautifulSoup；

lxml（xpath技术）；

ElementTree（解析xml）
4.保存数据
一般对规整化的数据直接保存成文件，放在本地。当然，也可以通过连接数据库保存在数据库中
浏览器请求
例如，当你在登录一个网站时，需要输入用户名和密码，此时会有两种数据请求方式：GET 方式和POST 方式。

GET方式：

直接将参数写在网址中，构建一个带参数的url。例如 https://www.wz.com?username=‘zhiqiuxiaomeng’&passwd=‘123456’，将 username 和 passwd 直接带入参数中。

POST方式：

将参数保存成一个变量，在请求过程中将变量发送给服务器。例如 values = {“username”:“zhiqiuxiaomeng”,“passwd”:“123456”}，在发送请求的时候将 values 一起发送给服务器。

什么是服务器响应？

服务器在接收到浏览器请求后，对请求进行验证，并返回相应的验证结果给浏览器，浏览器对返回结果解析，呈现给用户。

服务器返回结果包括两种：一种是返回数据，在浏览器端进行刷新填充；一种是返回一个新的页面，在浏览器端进行跳转。数据类型包括 html、css、json 等。

什么是ascll、unicode？

ascll 编码：使用一个字节进行编码（因为英文和数字一个字节足够）

unicode 编码：使用两个字节进行编码（因为中文至少需要两个字节）

utf-8 编码：可变长编码，英文通常是1个字节，汉字是三个及以上（生僻字）字节（节省存储空间）

注：utf-8 编码是unicode 编码的实现方式之一

什么是 utf-8、gb2312、gbk、iso8859-1 ？

GB2312 是国家制定的汉字编码标准，使用双子节进行编码，共收入6763个汉字和682个非汉字图形字符。

GBK 即对国标编码的扩展，在GB2312 的基础上进行扩展形成的，使用双子节编码方式，共收入21003个汉字，从而大大满足了汉字使用的需要。

ISO-8859-1 编码是单字节编码，向下兼容ASCII，是许多欧洲国家使用的编码标准

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。