网页之http

目录

一、网页概念:

1.纯文本格式文件

2.编写语言-----html---超文本标记语言

3.浏览器相当于翻译器,检查是否为html文件,是的话就翻译,否则就报错。

二、域名

三、DNS解析 

1.分布式域名解析-----层次性:迭代处理​编辑

2.DNS解析方式

四、HTML ( Hyper Text Markup Language )超文本标记语言 

1.格式: ​编辑

 2.标签头部

 3.内容标签中常用标签​编辑

 五、Web的迭代

1.web 1.0

2.web 2.0

3.web 3.0

六、网页状态的定义

1.静态页面

 2.动态页面

七、http协议

1.cookie和session

2.http请求格式

 3.HTTP状态码

总结:


一、网页概念:

1.纯文本格式文件

2.编写语言-----html---超文本标记语言

3.浏览器相当于翻译器,检查是否为html文件,是的话就翻译,否则就报错。

二、域名

  • 域名就是浏览网页时输入的网址,网络是基于 TCP/IP 协议进行通信和连接的,每一台主机都有一个唯一的标识(固定的 IP 地址),用以区别在网络上成千上万个用户和计算机。网络在区分所有与之相 连的网络和主机时,均采用一种唯一、通用的地址格式,即每一个与网络相连接的计算机和服务器都被指派一个独一无二的地址

  •  http:用来传输网页的通讯协议
  • URL:万维网寻址系统(跟在路径后的字符)

域名申请流程:

1.输入域名(查询重名)

2.付款

3.备案(负责人拍照)

流程大约10~20天,审核通过后才可以使用

三、DNS解析 

1.分布式域名解析-----层次性:迭代处理

 就是把整块的,大量的数据,分给不同的服务器处理,而这些服务器之间又统一映射着同一个域名。

2.DNS解析方式

  •  /etc/hosts linux系统中负责快速解析的文件,包含了ip与主机名的映射关系,在没有DNS服务器的情况下,使用本地/etc/hosts完成解析/映射,实现快速访问 PS: 主要用于主机之间(IP和主机名)的映射/解析关系,示例: 192.168.226.128 master 192.168.226.129 node1 192.168.226.130 node2
  •  /etc/resolv.conf DNS客户端配置文件,主要用于设置DNS服务器的IP和域名,还包含了主机域名的搜索顺序等等,这个文件是由域名解析器(resolver,一个根据主机名解析IP地址的库)使用的配置文件。 PS:主要用与匹配DNS服务器,示例: nameserver 114.114.114.114 nameserver 8.8.8.8 nameserver 218.2.135.1
  • /etc/sysconfig/network-scripts/ifcfg-ens33 我们也可以在网卡配置文件中定义DNS1= DNS2=
  • 生效顺序 1 hosts文件 2 网卡配置文件 3 /etc/resolv.conf

四、HTML ( Hyper Text Markup Language )超文本标记语言 

网页的“源码” 浏览器:“解释和执行”HTML源码的工具

1.格式:

 2.标签头部

 3.内容标签中常用标签

 五、Web的迭代

1.web 1.0

最早的、静态的网页,指的是网站到用户的单向行为,以用户单向阅读网页为主

2.web 2.0

目前在大量使用的,主要特点是可以使服务端和客户端双向沟通为主(网页登录、商城购物选购商品等)

3.web 3.0

未来的趋势,以AI人工智能自动学习为主

六、网页状态的定义

1.静态页面

  •  静态网页是标准的HTML文件 
  • 扩展名是.htm、.html 例如文本、图像、声音、Flash动画、客户端脚本和ActiveX控件及Java小程序等 
  • 是网站建设的基础,早期网站一般都由静态网页制作
  • 没有后台数据库、不含程序和不可交互的网页
  • 相对更新起来比较麻烦,适用于一般更新较少的展示型网站

 2.动态页面

可以实现更多功能,如用户登录、注册、查询等,由PHP(python)、JSP(java)等语言编写

七、http协议

HTTP(超文本传输协议HyperText Transfer Protocol)协议是互联网上应用最为广泛的一种网络协议,它是基于TCP协议的应用层传输协议,简单来说就是客户端和服务端进行数据传输的一种规则建立在传输层TCP之上,客户端通过与服务端进行TCP连接(三次握手),之后发送HTTP请求与接收HTTP响应都是通过访问Socket接口来调用TCP协议实现。

HTTP 是一种无状态 (stateless) 协议, HTTP协议本身不会对发送过的请求和相应的通信状态进行持久化处理(存储,保存)。这样做的目的是为了保持HTTP协议的简单性,从而能够快速处理大量的事务, 提高效率。

  • 无状态:重复、持久的处理
  • 有状态:在无状态基础上,加入新任务进行处理

1.cookie和session

cookie(用户端缓存)session(服务器缓存)主要为了防止sever和client资源被占用,客户首次登录时,会将记录在用户端的浏览器中(cookie),下次再次登录时,会直接读取cookie缓存,然后直接连接服务器。

两者对比: cookie 省服务器性能 session 更安全

2.http请求格式

  • GET方式
  • POST方式

 

  • GET方法:
  1. 从指定的服务器上获得数据
  2. GET请求能被缓存
  3. GET请求会保存在浏览器的浏览纪录里(cookit)
  4. GET请求有长度的限制 主要用于获取数据 查询的字符串会显示在URL中,不安全
  • POST方法:
  1. 提交数据给指定服务器处理
  2. POST请求不能被缓存
  3. POST请求不会保存在浏览器的浏览纪录里
  4. POST请求没有长度限制 查询的字符串不会显示在URL中,比较安全

 3.HTTP状态码

状态码首位  已定义范围  分类

  • 1xx         100-101   信息提示
  • 2xx          200-206   成功
  • 3xx          300-305   重定向
  • 4xx          400-415   客户端错误
  • 5xx          500-505    服务器错误

总结:

1.网络是基于TCP/IP协议建立连接并进行通讯的,每个主机都有独一无二的标识来区分(IP地址、mac地址),方便在交互时进行区分

2.访问网页时,是由dns域名解析后,映射的网址(由协议名、域名和URL组成),大量的访问数据由该域名映射的多个服务器共同迭代处理,并返回给用户不同的状态,在成功登陆之后,会通过缓存的方式记录用户的登录选项,在下一次登录时,读取缓存快速访问。

3.访问网页时返回的状态由于不同的状态码组成,分为客户端和服务端。

  • 3
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
Python是一种简单易用的编程语言,它有许多强大的库和工具,可以用于从网页上爬取数据。爬取网页数据是一种获取互联网上大数据的常用方法之一。 要从网页上爬取数据,我们首先需要了解目标网页的结构。通常,网页的数据是以HTML(超文本标记语言)的形式展示的,所以我们需要使用Python中的一个库来解析HTML,如BeautifulSoup或lxml。这些库可以帮助我们从HTML中提取出所需的数据。 接下来,我们需要使用Python中的一个库来发送HTTP请求,如requests库。我们可以将目标网页的URL传递给requests库的get()函数,然后得到返回的网页内容。通过分析返回的网页内容,我们可以确定要提取的数据所在的标签和属性。 一旦我们确定了要提取的数据所在的标签和属性,我们就可以使用BeautifulSoup或lxml库来提取数据。这些库提供了各种方法和函数来搜索、遍历和提取HTML标签中的数据。 在进行网页数据爬取之前,我们还需要考虑一些道德和法律问题。首先,我们应该尊重网站的使用政策,并遵守robots.txt文件中的规定。其次,我们应该避免对网站造成不必要的负载,以免给网站服务器造成过大的压力。 总结起来,Python是一种非常适合从网页上爬取数据的编程语言。通过使用HTML解析库和HTTP请求库,我们可以很容易地从网页中提取出所需的数据。当然,在进行爬取之前我们还需要注意道德和法律问题。爬取网页数据是大数据领域的一项重要技术,它可以帮助我们获取更多的信息,拓宽我们的知识面和提高工作效率。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Tizzy33

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值