晨测系列

晨测1

1、什么是爬虫?他可以解决那些问题?

2、什么是搜索引擎,搜索引擎由什么组成?他的工作过程是什么?

3、通用爬虫的缺陷是什么?

4、http的工作过程?

5、当我们在浏览器输入一个url,浏览器加载出这个页面,中间做了哪些事?

1、爬虫的定义:程序或者脚本–》自动的爬取万维网数据的程序或者脚本
爬虫可以解决的问题:
(1)解决冷启动问题。
(2)搜索引擎的根基。 --通用爬虫。
(3)帮助机器学习建立知识图谱。
(4)制作各种比价软件

2,搜索引擎通过特定算法,从互联网上获取网页信息,将其保存到本地,为用户提供检索服务的一种程序
组成:通用爬虫
搜索引擎的工作步骤–>
1抓取网页
2数据存储
3预处理
提取文字
中文分词
消除噪声
4提供检索服务网站排名(访问量)

3、通用爬虫的缺陷
(1)通用爬虫是爬取整个网页,但是网页中内容大部分无用
(2)不能满足不同行业,不同人员的不同需求。
(3)只能获取文字,不能获取音频,视频,文档等信息。
(4)只能通过关键字查询,无法通过语义查询

4、http的工作过程:
(1)地址解析
将url的所有组成部分分别解析出来。
(2)封装http请求数据包。
将第一步解析出来的信息进行装包。—http数据包。
(3)封装tcp数据包,通过三次握手建立tcp
(4)客户端发送请求
(5)服务发送响应
(6)关闭tcp连接。

5、 (1)客户端解析url,封装数据包,建立连接,在发送请求。
(2)服务器返回url对应资源文件给客户端,比如:index.html。
(3)客户端检查idnex.html是否有静态资源(引用外部文件),
比如js,css,图片。有的话在分别发送请求,来获取这些静态资源
(4)客户端获取所有静态,通过html语法,完全将index.html页面出来

晨测2

1、请写出5种类型的状态码分类,以及表示的含义?

2、客户端请求和服务器响应分别由什么组成,请写出重要的请求头都有哪些?

3、http的工作过程?

4、requests的模块使用步骤是什么?

5、response对象都有哪些属性?

1、服务器响应:
(1)组成:状态行、 响应头、空行、响应正文
(2)响应头:
Content-Type: Text/html;charset-UTF-8
(3)状态码(面试常考):
1xx:表示服务器成功接收部分请求,还需要发剩余
请求才能处理整个过程。
2xx:标识服务器成功接收请求并处理完整个过程。
(成功) 200成功
3xx:为了完成请求,客户端需要进一步细化请求。
302:重定向
304:使用缓存资源
4xx:客户端请求错误:(url写错了)
404:服务器无法找到请求内容。
403:服务器拒绝访问,权限不够。
5xx:服务器错误。
502:服务器错误。
500:请求未完成,服务器遇到不可知问题

2、 客户端请求
组成:请求行、请求头、空行、请求数据(实体)
  请求头:请求方法:host地址,http协议版本。
服务器响应:
组成:状态行、 响应头、空行、响应正文
重要的请求头:
content-type:post请求的数据类型
content-length:post请求数据的长度。

		ajax请求必须封装的头:
			x-requested-with:xmlhttprequest

3、http的工作过程:
(1)地址解析
将url的所有组成部分分别解析出来。
(2)封装http请求数据包。
将第一步解析出来的信息进行装包。—http数据包。
(3)封装tcp数据包,通过三次握手建立tcp
(4)客户端发送请求
(5)服务发送响应
(6)关闭tcp连接。
4、requests模块
1,使用步骤:
1,导包
import requests
2,确定基础url
base_url = ‘https://www.baidu.com’
3,发送请求,获取响应
response = requests.get(base_url)
4,处理响应内容
5、response对象的属性:
服务器响应包含:状态行(协议,状态码)、响应头,空行,响应正文

晨测3

1、什么是cookie,什么是session?
cookie是指网站为了鉴别用户身份,进行会话跟踪而存储在客户端本地的数据。
本来的含义是指有始有终的一系列动作,而在web中,session对象用来服务器存储特定用户会话所需要的属性及信息。
2、cookie和session的原理是什么?他们是如何联系在一起的?
cookie的原理:
由服务器产生,当浏览器第一次发送请求到服务器,服务器返回数据,同时生成一个cookie返回客户端,客户端将这个cookie保存下来。
当浏览器再次访问,浏览器就会自动带上cookie信息,这样服务器就能通过cookie判断是哪个用户在操作。
session的工作原理。
cookie的缺陷:
1,不安全----保存在客户端
2,cookie本身最大支持4096(4kb)—存储大小受限。
正是因为cookie的缺陷,所以产生了另外一种保持状态的方法–session。

服务器存储session,基于http协议的无状态特征,服务器就不知道这个访问是谁。为了解决这个问题,cookie就起到了桥的作用。cookie在使用的过程中,将一个叫做session的字段放到cookie中,将来服务器可以通过这个id字段来查找到地上那个用户的session。
session的生命周期,当用户第一次登陆时创建(生命开始),到session有限期结束(30min)。

3、什么是会话cookie,什么是持久cookie?
持久化:将内存中的数据存储到硬盘(文件中,数据)上的过程。
序列化:将对象保存到硬盘上

会话cookie:保存在内存中cookie,浏览器关闭,cookie失效。
持久cookie:保存在硬盘上的cookei。

4、什么是url,url的是由那几部分组成的?
url:统一资源定位符。
组成:https://www.baidu.com/index.html?username=123&password=abc#top
scheme:协议—https
netloc:网络地址:ip:port—www.baidu.com
通过ip定位电脑,通过port定位应用。
192.168.92.10:
代理ip:ip:port
path:资源路径。—index.html
query:请求参数:—?后面的内容username=123&password=abc
fragment:锚点----top
5、搜索引擎的工作步骤是什么?通用爬虫的缺陷是什么?
搜索引擎的工作步骤:
1、抓取网页
2、数据存储
3、预处理
提取文字
中文分词
消除噪音
。。。
通用爬虫的缺陷:
(1)通用爬虫是爬取整个网页,但是网页中90%的内容基本是没用。
(2)不能满足不同行业,不同人员的不同需求。
(3)只能获取文字,不能获取音频,视频,文档等信息。
(4)只能通过关键字查询,无法通过语义查询。
6、数据分为哪几种?请说明每种数据的特点并举例。
1,结构化数据
特点:数据以行为为单位,每一个数据表示一个实体,每一行数据的属性都是一样的。
举例:关系型数据库中的表就是结构化数据。
处理方法:sql
2,半结构化数据
特点:结构化数据的另一种型式。它并不符合关系型数据的特点,不能用关系型模型来描述,但是这种数据包含相关标记有用来分割语义元素以及字段进行分层的描述,因此也被称为自描述结构。
举例:xml、html、json
处理方法:正则,xpath,jsonpath,css选择器
3,非结构化数据:
特点:没有固定结构的数据,
举例:文档、图片、音频、视频。
处理方法:常常用二进制形式来做整体保存。

晨测4

1、什么是xml?(定义、特点、作用)
定义:可扩展标记性语言
特点:xml自描述结构–>半结构化数据
作用:设计宗旨传输数据–>可作为配置文件
2、xml和html的区别?
1,语法要求不同---->xml严格
html–>不区分大小写–>有时省却尾标签–>不带属性值–>属性可不加引号
xml–>区分大小写–>不能省却标签—>有自闭标签(无内容标签,只属性)–>必须带属性值–>属性必须引号
3、什么是贪婪模式和非贪婪模式?

贪婪和非贪婪模式
(1)贪婪和非贪婪的区别在于匹配内容的多少。
(2)贪婪使用*来控制匹配次数的。正则默认是贪婪。
(3)非贪婪使用?来控制的。
(4)在表示数量控制元字符后面加一个?,此时就表示这个数量控制符取最小值,也就是非贪婪。
4、代理的作用是什么?
代理的作用:
a、突破自身ip访问现实,可以访问一些平时访问不到网站
b、访问一些单位或者团体的资源。
c、提高访问速度、代理的服务器主要作用就是中转,所以一般代理服务里面都是用内存来进行数据存储的。
d、隐藏ip。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
毕业设计,基于SpringBoot+Vue+MySQL开发的公寓报修管理系统,源码+数据库+毕业论文+视频演示 现代经济快节奏发展以及不断完善升级的信息化技术,让传统数据信息的管理升级为软件存储,归纳,集中处理数据信息的管理方式。本公寓报修管理系统就是在这样的大环境下诞生,其可以帮助管理者在短时间内处理完毕庞大的数据信息,使用这种软件工具可以帮助管理人员提高事务处理效率,达到事半功倍的效果。此公寓报修管理系统利用当下成熟完善的Spring Boot框架,使用跨平台的可开发大型商业网站的Java语言,以及最受欢迎的RDBMS应用软件之一的MySQL数据库进行程序开发。公寓报修管理系统有管理员,住户,维修人员。管理员可以管理住户信息和维修人员信息,可以审核维修人员的请假信息,住户可以申请维修,可以对维修结果评价,维修人员负责住户提交的维修信息,也可以请假。公寓报修管理系统的开发根据操作人员需要设计的界面简洁美观,在功能模块布局上跟同类型网站保持一致,程序在实现基本要求功能时,也为数据信息面临的安全问题提供了一些实用的解决方案。可以说该程序在帮助管理者高效率地处理工作事务的同时,也实现了数据信息的整体化,规范化与自动化。 关键词:公寓报修管理系统;Spring Boot框架;MySQL;自动化;VUE
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值