Python爬虫流程

最新推荐文章于 2023-12-11 12:01:43 发布

aCandy93

最新推荐文章于 2023-12-11 12:01:43 发布

阅读量5.1k

点赞数 5

分类专栏： Python 文章标签： Python

本文链接：https://blog.csdn.net/qq_30365153/article/details/79386921

版权

                    
                        
                    
                    爬虫基本流程 
发起请求 
 通过HTTP库向目标服务器发送Request，Request内可以包含额外的headers信息。
获取响应内容 
 如果服务器正常响应，会返回Response， 里面包含的就是该页面的内容。
解析数据 
 内容或许是HTML，可以用正则表达式、网页解析库进行解析。 
 或许是Json，可以直接转换为Json对象解析。
保存数据 
 可以存储为文本，也可以保存至数据库，或其他特定类型文件。
 
Request和Response 
Request 
 主机向服务器发送数据请求时的过程叫做HTTP Request
Response 
 服务器向主机返回数据的过程叫做HTTP Response
 
Request中包含的内容 
请求方式 
 常用的有GET，POST两种类型。 
 
  GET 
 这种请求方式的参数都包含在网址里面。
POST 
 这种请求方式的参数包含在请求体中的form data中。相对安全。
URL 
 请求的网络链接。
请求头 
 包含请求时的头部信息。如：User-Agent、Host、Cookies等。 
 
  User-Agent 
 指定浏览器。
请求体 
 GET请求下一般情况请求体中不会包含重要信息。 
 POST请求中包含重要信息。
 
Response中包含的内容 
响应状态 

                

最低0.47元/天解锁文章

aCandy93

关注

5
点赞
踩
21

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫流程

爬虫基本流程发起请求通过HTTP库向目标服务器发送Request，Request内可以包含额外的headers信息。获取响应内容如果服务器正常响应，会返回Response，里面包含的就是该页面的内容。解析数据内容或许是HTML，可以用正则表达式、网页解析库进行解析。或许是Json，可以直接转换为Json对象解析。保存数据可以存储为文本，也可以保存至数据库，或其他...
复制链接

扫一扫

专栏目录