Python爬虫前奏

最新推荐文章于 2024-07-27 12:20:46 发布

weixin_34161083

最新推荐文章于 2024-07-27 12:20:46 发布

阅读量59

点赞数

文章标签： python 爬虫前端 ViewUI

原文链接：https://my.oschina.net/cunyu1943/blog/2874295

版权

2019独角兽企业重金招聘Python工程师标准>>>

网络爬虫

定义通过模拟人请求网站的行为，然后能够自动请求网页并将数据抓取下来，再使用一定规则将其中我们所需要的有价值的数据提取出来存储，以便我们进行分析；
分类
- 通用爬虫搜索引擎抓取系统的一个重要组成部分，主要将网页抓取下来，形成一个互联网的内容备份镜像；
- 聚焦爬虫面向特定需求的网络爬虫，与通用爬虫的区别在于它能够在对网页抓取的同时对有价值的内容进行筛选，以满足我们对数据的需求；

http&https

http HyperText Transfer Protocol，超文本传输协议，一种发布和接收HTML页面的方法，默认端口80；
https Hypertext Transfer Protocol Secure，http协议的加密版，在http下加入SSL层，默认端口443；

URL

定义 Uniform Resource Locator，统一资源定位符；
组成：scheme://host:port/path/?query-string=xxx#anchor，除开英文字母、数字和部分符号外，其他都是%+16进制码进行编码；
- scheme：访问协议，常为http、https及ftp；
- host：主机/域名；
- port：端口号；
- path：查找路径；
- query-string：查询字符串；
- anchor：锚点，用于前端的页面定位；

常见请求方式

get 只需要从服务器获取数据，而不会对服务器资源产生影响时所使用的方式；
post 向服务器发送数据如登陆操作、上传文件等，会对服务器资源产生影响时所采用的方式；

常见请求头参数

Cookie 由之前服务器通过Set-Cookies设置的一个HTTP协议；
Referer 表示浏览器之前访问的页面，可以认为是之前访问页面的链接将浏览器带到当前页面；
User-Agent 浏览器的身份表示字符串；

响应状态码

总结

本文总结了学习Python爬虫所需要的一些基础知识，通过学习，你将对爬虫的定义以及一些网络知识有所了解，为接下来进一步学习Python爬虫做好准备；

转载于:https://my.oschina.net/cunyu1943/blog/2874295

weixin_34161083

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫前奏

2019独角兽企业重金招聘Python工程师标准>>> ...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。