数据采集与管理【2】

星绘搜题

于 2022-02-16 09:54:09 发布

阅读量691

点赞数

本文链接：https://blog.csdn.net/robin9409/article/details/122957127

版权

1.正则表达式中有一些预定义的字符分类，其中,（）表示任意数字。。

A.\w
B.\d
C.$
D.\s

2.正则表达式中，[abc]表示（）。

A.字符串abc
B.字符a
C.字符a,b或c
D.同时包含abd的字符串

3.采集的目标是那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的，只有用户提交一些关键词才能获得的Web页面。

A.深层网络爬虫
B.通用网络爬虫
C.聚焦网络爬虫
D.增量式网络爬虫

4.正则表达式中有一些预定义的字符分类，其中,（）表示任意单词字符。。

A.\w
B.\d
C.\s
D.$

5.数据的预处理ETL的E表示（）。

A.转换
B.抽取
C.清洗
D.加载

6.以下哪个HTTP响应状态表示服务器端错误

A.200
B.403
C.300
D.500

7.以下不能匹配正则表达式"^[\d]+$"的是（）。

A.12
B.12abc
C.10
D.123

8.HTTP请求中的（）头域允许客户端指定请求uri的源资源地址，这可以允许服务器生成回退链表，可用来登陆、优化cache等。

A.Accept
B.Cookie
C.User-Agent
D.Referer

9.数据（）的任务是过滤那些不符合要求的数据。

A.清洗
B.转换
C.抽取
D.加载

10.HTTP响应中的（）指明实体正文的长度，以字节方式存储的十进制数字来表示。

A.Content-Length
B.Content-Range
C.Content-Language
D.Content-Encoding

11.是指对已下载网页采取增量式更新和只爬行新产生的或者已经发生变化网页的爬虫，它能够在一定程度上保证所爬行的页面是尽可能新的页面。

A.通用网络爬虫
B.增量式网络爬虫
C.深层网络爬虫
D.聚焦网络爬虫

12.HTTP请求中的（）方法用于请求服务器回送收到的请求信息，主要用于测试或诊断。

A.TRACE
B.DELETE
C.GET
D.PUT

13.以下关于正则表达式中数量表示规则的说法，不正确的是

A.X+表示可以出现1次或多次
B.X*表示可以出现0次，1次或多次
C.X+表示可以出现0次，1次或多次
D.X表示必须出现一次

14.HTTP请求中的（）方法用于请求服务器删除Request-URI所标识的资源。

A.PUT
B.DELETE
C.GET
D.TRACE

15.，又称主题网络爬虫，是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫。

A.增量式网络爬虫
B.聚焦网络爬虫
C.深层网络爬虫
D.通用网络爬虫

16.数据质量的（）表示数据是否正确的表示了现实或可证实的来源。

A.一致性
B.完整性
C.完备性
D.正确性

17.如果要采集指定的数据，则需要使用到（），因为它只需要爬行与主题相关的页面，极大地节省了硬件和网络资源，保存的页面也由于数量少而更新快。

A.深层网络爬虫
B.增量式网络爬虫
C.聚焦网络爬虫
D.通用网络爬虫

18.通过使用Web浏览器、网络爬虫或者其它的工具，客户端发起一个到服务器上指定端口的HTTP请求。我们称这个客户端叫（）。

A.源服务器
B.用户代理
C.数据库
D.播放器

19.的搜索策略是指按照深度由低到高的顺序，依次访问下一级网页链接，直到不能再深入为止，比较适合垂直搜索或站内搜索。

A.基于目标特征
B.深度优先
C.广度优先
D.基于领域

20.按照（）爬取的网页内容根据目录层次深浅来爬行页面，处于较浅目录层次的页面首先被爬行，当同一层次中的页面爬行完毕后，爬虫再深入下一层继续爬行。

A.广度优先策略
B.深度优先策略
C.随机爬行策略
D.PageRank优先策略

21.对发出的HTTP请求应答的服务器上存储着一些资源，比如HTML文件和图像。我们称这个应答服务器为（）。

A.浏览器
B.用户代理
C.播放器
D.源服务器

22.HTTP响应中的（）表示浏览器应该在多少秒之后刷新文档。

A.Refresh
B.Connection
C.WWW-Authenticate
D.Location

23.以下能匹配正则表达式"^[A-Za-z]+$"的是（）。

A.a3
B.33
C.abc
D.ab

24.如果HTTP请求的响应信息是404，则应采取下列哪项措施（）。

A.检查浏览器权限
B.再次核对请求的页面地址是否正确
C.向网管报障
D.向管理员请求用户名和密码

25.以下哪个属于深层网页

A.网站导航页
B.用户注册后内容才可见的网页
C.超链接可以到达的静态网页
D.网站首页

26.关于各种网络爬虫，以下说法不正确的是（）。

A.通用网络爬虫适用于为搜索引擎搜索广泛的主题，有较强的应用价值。
B.通用网络爬虫通常采用并行工作方式，但需要较长时间才能刷新一次页面。
C.聚焦爬虫根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。
D.增量式爬虫在需要的时候爬行新产生或发生更新的页面，并重新下载所有页面

27.以下不属于HTTP协议请求方法的是

A.SUBMIT
B.POST
C.GET
D.TRACE

28.HTTP请求中（）头域的内容包含发出请求的用户信息。

A.Cookie
B.User-Agent
C.Accept
D.Referer

29.正则表达式的规则中，（）表示匹配所有非空白字符

A.\W
B.\d
C.\S
D.\w

30.HTTP请求的（）能使客户端到服务器端的连接持续有效，当出现对服务器的后继请求时，避免了建立或者重新建立连接。

A.Keep-Alive
B.Host
C.Referer
D.Cookie

31.数据的预处理ETL的L表示（）。

A.抽取
B.加载
C.转换
D.清洗

32.深层网络（DeepWeb）爬虫爬行过程中最重要部分就是（）。

A.内容评价
B.表单填写
C.主题定义
D.链接评价

33.正则表达式中的量词可以匹配一个表达式多次出现，其中（）表示0次或多次。

A.^
B.?
C.*
D.+

34.增量式爬虫中的（）指的是：爬虫根据网页改变频率将其分为更新较快网页子集和更新较慢网页子集两类，然后以不同的频率访问这两类网页。

A.个体更新法
B.基于分类的更新法
C.统一更新法
D.随机更新法

35.正则表达式中的量词可以匹配一个表达式多次出现，()表示1次或多次。

A.+
B.*
C.^
D.?

36.HTTP中（）方法可用于请求查询服务器的性能，或者查询与资源相关的选项和需求。

A.OPTIONS
B.PUT
C.DELETE
D.TRACE

37.HTTP响应中的（）用于重定向一个新的位置。

A.Location
B.Refresh
C.Connection
D.WWW-Authenticate

38.HTTP请求中的（）方法要求被请求服务器接受附在请求后面的数据，常用于提交表单。

A.POST
B.GET
C.TRACE
D.PUT

39.HTTP请求中的（）方法用于请求服务器存储一个资源，并用Request-URI作为其标识。

A.POST
B.GET
C.TRACE
D.PUT

40.描述了一种字符串匹配的模式，通常被用来检索、替换那些符合某个模式(规则)的文本。

A.网络爬虫
B.字符集
C.正则表达式
D.数据采集

41.HTTP中（）方法可用于请求查询服务器的性能，或者查询与资源相关的选项和需求。

A.DELETE
B.TRACE
C.PUT
D.OPTIONS

42.正则表达式的规则中，（）表示匹配所有非空白字符

A.\S
B.\W
C.\d
D.\w

43.数据质量的（）表示数据是否正确的表示了现实或可证实的来源。

A.完整性
B.正确性
C.完备性
D.一致性

44.HTTP响应中的（）指明实体正文的长度，以字节方式存储的十进制数字来表示。

A.Content-Length
B.Content-Language
C.Content-Range
D.Content-Encoding

45.发送了一个HTTP请求后，客户端收到一个200的响应，这表示（）。

A.请求成功
B.重定向到其他URL
C.登录失败
D.拒绝访问

46.HTTP请求的（）能使客户端到服务器端的连接持续有效，当出现对服务器的后继请求时，避免了建立或者重新建立连接。

A.Cookie
B.Keep-Alive
C.Referer
D.Host

47.对于不完整的数据，例如一些应该有的信息缺失，如信息缺失、主表与明细表不能匹配等，应进行数据（）。

A.转换
B.清洗
C.抽取
D.加载

48.HTTP请求中的（）头域代表发送端（客户端）希望接受的数据类型。

A.Accept
B.Cookie
C.User-Agent
D.Referer

49.的基本方法是按照深度由低到高的顺序，依次访问下一级网页链接，直到不能再深入为止。

A.广度优先策略
B.深度优先策略
C.随机爬行策略
D.PageRank优先策略

50.网络数据采集是指通过（）或网站公开API等方式从网站上获取数据信息。。

A.浏览器
B.播放器
C.网络爬虫
D.服务器

51.以下属于HTTP协议的主要特点的是（）。

A.HTTP协议是无状态协议
B.HTTP不支持安全认证
C.HTTP1.1使用非持续连接
D.HTTP只允许传输指定类型的数据对象

52.正则表达式支持匹配边界。例如，()匹配行首。。

A.^
B.\w
C.\d
D.$

53.以下哪个不属于HTTP请求信息（）。

A.Connection
B.User-Agent
C.Expires
D.Accept-Language

54.爬行过程中最重要部分就是表单填写及处理。

A.深层网络爬虫
B.聚焦网络爬虫
C.通用网络爬虫
D.增量式网络爬虫

55.由HTTP客户端发起一个请求，建立一个到服务器指定端口的TCP连接，这个端口默认是（）端口。

A.80
B.88
C.10
D.81

56.GET提交表单时，以（）符号分割URL和传输数据。

A.||
B.&
C.*
D.?

57.正则表达式中有一些预定义的字符分类，其中,（）表示任意单词字符。。

A.\s
B.\w
C.\d
D.$

58.以下不属于HTTP协议的主要特点的是（）。

A.支持基本认证和安全认证
B.支持客户/服务器模式
C.有状态
D.简单快速

59.HTTP请求中的（）字段可能为类似"Mozilla/5.0(iPhone;U;CPUiPhoneOS4_3_3likeMacOSX;en-us)AppleWebKit……”这样的信息。

A.Connection
B.User-Agent
C.Cookie
D.Host

60.HTTP请求头中（）域的内容包含发出请求的用户信息，例如使用的客户端名称和版本号等。

A.Referer
B.Cookie
C.User-Agent
D.Host

61.只会在需要的时候爬行新产生或发生更新的页面，并不重新下载没有发生变化的页面，可有效减少数据下载量，及时更新已爬行的网页，减小时间和空间上的耗费，但是增加了爬行算法的复杂度和实现难度。

A.通用网络爬虫
B.增量式网络爬虫
C.深层网络爬虫
D.聚焦网络爬虫

62.以下关于深度优先的爬行策略的说法，不正确的有（）。

A.爬虫在完成一个爬行分支后返回到上一链接节点进一步搜索其它链接，直到所有链接遍历完
B.处于较浅目录层次的页面都可以首先被爬行
C.其基本方法是按照深度由低到高的顺序，依次访问下一级网页链接，直到不能再深入为止
D.比较适合垂直搜索或站内搜索

63.以下不能匹配正则表达式"^[\w]+$"的是（）。

A.S+1
B.S_1
C.12
D.S1

64.HTTP请求中的（）方法用于请求服务器回送收到的请求信息，主要用于测试或诊断。

A.DELETE
B.GET
C.TRACE
D.PUT

65.增量式爬虫中的（）指的是：爬虫以相同的频率访问所有网页，不考虑网页的改变频率。

A.统一更新法
B.个体更新法
C.随机更新法
D.基于分类的更新法

66.网络数据采集一般是通过（）或网站公开API等方式从网站上获取数据信息。

A.网站日志
B.表单
C.HTTP
D.网络爬虫

67.按照（）爬取的网页内容根据目录层次深浅来爬行页面，处于较浅目录层次的页面首先被爬行，当同一层次中的页面爬行完毕后，爬虫再深入下一层继续爬行。

A.深度优先策略
B.PageRank优先策略
C.广度优先策略
D.随机爬行策略

68.以下能匹配正则表达式"^[A-Za-z]+$"的是（）。

A.abc
B.a3
C.ab
D.33

69.在HTP响应信息中，若状态信息码是200则表示（）。

A.访问被禁止
B.请求成功
C.所请求的页面已经转移至新的url
D.登录失败

70.数据转换不包括（）。

A.不完整的数据
B.商务规则的计算
C.数据粒度的转换
D.不一致数据转换

71.，又称主题网络爬虫，是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫。

A.增量式网络爬虫
B.深层网络爬虫
C.通用网络爬虫
D.聚焦网络爬虫

72.采集的目标是那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的，只有用户提交一些关键词才能获得的Web页面。

A.聚焦网络爬虫
B.通用网络爬虫
C.增量式网络爬虫
D.深层网络爬虫

73.是指发现并纠正数据文件中可识别的一些错误。

A.数据清洗
B.数据采集
C.数据集成
D.数据分析

74.DeepWeb爬虫体系结构中的LVS用于（）。

A.待爬行URL集
B.初始URL集合
C.本地页面URL集
D.表示填充表单的数据源

75.在HTTP响应信息中，若状态信息码是404则表示（）。

A.访问被禁止
B.所请求的页面已经转移至新的url
C.登录失败
D.没有找到请求的页面

76.以下不能匹配正则表达式"^[\d]+$"的是（）。

A.123
B.12
C.10
D.12abc

77.关于表层网页及深层网页，以下说法不正确的是（）。

A.深层网页爬虫主要用于爬去因此在搜索表单后的深层网页。
B.表层网页是指传统搜索引擎可以索引的页面，以超链接可以到达的静态网页为主构成的Web页面。
C.深层网页是那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的，只有用户提交一些关键词才能获得的Web页面。
D.深层网页中包含的信息远远少于表层网页。

78.以下关于深度优先的爬行策略的说法，不正确的有（）。

A.处于较浅目录层次的页面都可以首先被爬行
B.比较适合垂直搜索或站内搜索
C.其基本方法是按照深度由低到高的顺序，依次访问下一级网页链接，直到不能再深入为止
D.爬虫在完成一个爬行分支后返回到上一链接节点进一步搜索其它链接，直到所有链接遍历完

79.数据转换不包括（）。

A.不一致数据转换
B.商务规则的计算
C.数据粒度的转换
D.不完整的数据

80.以下哪个HTTP响应状态表示服务器端错误

A.300
B.200
C.500
D.403

81.HTTP请求的响应状态码为403表示（）。

A.请求成功
B.服务器忙
C.服务器连接超时
D.对被请求页面的访问被禁止

82.以下字符串能匹配正则表达式"^[a-z][0-9]$”的是

A.a
B.ab
C.1
D.a1

83.数据的预处理ETL的T表示（）。

A.转换
B.抽取
C.加载
D.清洗