爬虫基础

什么是爬虫?

网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。

学习爬虫需要学习的内容有哪些?

1.python基础语法知识,加上进阶语法知识更好。
2. 基本库的使用,比如:urllib,requests
3. 解析库的使用,比如:XPath,Beautiful Soup,pyquery
4. 数据的存储,比如:TXT,JSON,CSV,Mysql,MongoDB,redis
5. Ajax数据的获取
6. 验证码的识别
7. 代理的使用
8. 模拟登陆
9. app爬虫
10.pyspider框架的使用
11.Scrapy框架的使用
12.分布式爬虫

通用爬虫和聚焦爬虫

1.通用爬虫
通用网络爬虫 是捜索引擎抓取系统(Baidu、Google、Yahoo 等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。
2、聚焦爬虫
聚焦爬虫,是"面向特定主题需求"的一种网络爬虫程序,它与通用搜索引擎爬虫的区
别在于: 聚焦爬虫在实施网页抓取时会对内容进行处理筛选,尽量保证只抓取与需求相关的网页信息。而我们这些爬虫爱好者就是学习聚焦爬虫。

URI和URL

URI (Uniform Resource Identifier):统一资源标志符
URL(Uniform Resource Locator):统一资源定位符
举例来说:由于现在的互联网上几乎都使用URL,URN用的非常少,所以URI也叫URL.这篇文章的网址就是个URL,也叫URI。用URL/URI确定了这篇文章的唯一访问方式,就是将这个链接粘贴到游览器的网址栏,回车,才能访问到这篇文章。网址包括了https,访问路径和资源名称。

URL跟URI跟URN之间的关系
URL与URN都是URI的子类

HTTP和HTTPS

HTTP 协议(HyperText Transfer Protocol,超文本传输协议):是一种发布和接收
HTML 页面的方法。是规范。
HTTPS(Hypertext Transfer Protocol over Secure Socket Layer)简单讲是 HTTP
的安全版,在 HTTP 下加入 SSL 层。
SSL(Secure Sockets Layer 安全套接层)主要用于 Web 的安全传输协议,在传输层
对网络连接进行加密,保障在 Internet 上数据传输的安全。
· HTTP 的端口号为 80,
· HTTPS 的端口号为 443
由于https服务有SSL加密的,所以相对于明文的http安全度较高,所以现在的网站跟app都在向https靠拢。

响应状态码(面试常考)

响应状态代码有三位数字组成,第一个数字定义了响应的类别,且有五种可能取值。
常见状态码:
100~199:表示服务器成功接收部分请求,要求客户端继续提交其余请求才能完成整
个 处理过程。
200~299:表示服务器成功接收请求并已完成整个处理过程。常用 200(OK 请求成功)。
300~399:为完成请求,客户需进一步细化请求。例如:请求的资源已经移动一个新
地 址、常用 302(所请求的页面已经临时转移至新的 url)、307 和 304(使
用 缓存资源)。
400~499:客户端的请求有错误,常用 404(服务器无法找到被请求的页面)、403
(服 务器拒绝访问,权限不够—DDos)。
500~599:服务器端出现错误,常用 500(请求未完成。服务器遇到不可预知的情况)

请求方法

HTTP 请求主要分为 Get 和 Post 两种方法
GET 是从服务器上获取数据,POST 是向服务器传送数据
GET 请求参数显示,都显示在浏览器网址上,HTTP 服务器根据该请求所包含 URL 中
的 参数来产生响应内容,即“Get”请求的参数是 URL 的一部分。例
如: http://www.baidu.com/s?wd=Chinese
POST 请求参数在请求体当中,消息长度没有限制而且以隐式的方式进行发送,通常
用 来向 HTTP 服务器提交量比较大的数据(比如请求中包含许多参数或者文件上传操
作等), 请求的参数包含在“Content-Type”消息头里,指明该消息体的媒体类型和
编码,
注意:避免使用 Get 方式提交表单,因为有可能会导致安全问题。比如说在登陆表单
中用 Get 方式,用户输入的用户名和密码将在地址栏中暴露无遗。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值