晨测3 理论语法

1、什么是cookie,什么是session?

cookie是指网站为了鉴别用户身份,进行会话跟踪而存储在客户端本地的数据。
本来的含义是指有始有终的一系列动作,而在web中,session对象用来服务器存储特定用户会话所需要的属性及信息。

2、cookie和session的原理是什么?他们是如何联系在一起的?

cookie的原理:
由服务器产生,当浏览器第一次发送请求到服务器,服务器返回数据,同时生成一个cookie返回客户端,客户端将这个cookie保存下来。
当浏览器再次访问,浏览器就会自动带上cookie信息,这样服务器就能通过cookie判断是哪个用户在操作。 session的工作原理。
cookie的缺陷:
1,不安全----保存在客户端 2,cookie本身最大支持4096(4kb)—存储大小受限。
联系在一起的原因:正是因为cookie的缺陷,所以产生了另外一种保持状态的方法–session。
服务器存储session,基于http协议的无状态特征,
服务器就不知道这个访问是谁。为了解决这个问题,cookie就起到了桥的作用。
cookie在使用的过程中,将一个叫做session的字段放到cookie中,将来服务器可以通过这个id字段来查找到地上那个用户的session。
session的生命周期,当用户第一次登陆时创建(生命开始),到session有限期结束(30min)。

3、什么是会话cookie,什么是持久cookie?

持久化:将内存中的数据存储到硬盘(文件中,数据)上的过程。
序列化:将对象保存到硬盘上
会话cookie:保存在内存中cookie,浏览器关闭,cookie失效。
持久cookie:保存在硬盘上的cookei。

4、什么是url,url的是由那几部分组成的?

url:统一资源定位符。
组成:https://www.baidu.com/index.html?username=123&password=abc#top
scheme:协议—https
netloc:网络地址:ip:port—www.baidu.com
通过ip定位电脑,通过port定位应用。
192.168.92.10:
代理ip:ip:port
path:资源路径。—index.html
query:请求参数:—?后面的内容username=123&password=abc
fragment:锚点----top

5、搜索引擎的工作步骤是什么?通用爬虫的缺陷是什么?

搜索引擎的工作步骤:

1、抓取网页
2、数据存储
3、预处理
提取文字
中文分词
消除噪音

			。。。
			通用爬虫的缺陷:

(1)通用爬虫是爬取整个网页,但是网页中90%的内容基本是没用。
(2)不能满足不同行业,不同人员的不同需求。
(3)只能获取文字,不能获取音频,视频,文档等信息
(4)只能通过关键字查询,无法通过语义查询。

6、数据分为哪几种?请说明每种数据的特点并举例。

1,结构化数据

 特点:数据以行为为单位,每一个数据表示一个实体,每一行数据的属性都是一样的。
 举例:关系型数据库中的表就是结构化数据。
 处理方法:sql
2,半结构化数据

特点:结构化数据的另一种型式。它并不符合关系型数据的特点,不能用关系型模型来描述,但是这种数据包含相关标记有用来分割语义元素以及字段进行分层的描述,因此也被称为自描述结构。
举例:xml、html、json
处理方法:正则,xpath,jsonpath,css选择器

3,非结构化数据:

特点:没有固定结构的数据,
举例:文档、图片、音频、视频。
处理方法:常常用二进制形式来做整体保存。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值