数据采集与管理【10】

星绘搜题

于 2022-02-16 10:16:12 发布

阅读量1.4k

点赞数

文章标签：正则表达式前端后端

本文链接：https://blog.csdn.net/robin9409/article/details/122957755

版权

1.HTTP状态码200表示请求成功。（2分）

A.正确
B.错误

2.以下不属于HTTP协议的主要特点的是（）。（2分）

A.支持客户/服务器模式
B.支持基本认证和安全认证
C.简单快速
D.有状态

3.目前互联网上的信息分类大多数都是人工完成的。（1分）

A.正确
B.错误

4.聚焦网络爬虫爬行页面的顺序要求相对较低。（1分）

A.正确
B.错误

5.Web服务器不保存发送请求的Web浏览器进程的任何信息。（1分）

A.正确
B.错误

6.表层网页（SurfaceWeb）是互联网上最大、发展最快的新型信息资源。（1分）

A.正确
B.错误

7.聚焦爬虫只需要爬行与主题相关的页面。。（1分）

A.正确
B.错误

8.表层网页是指传统搜索引擎可以索引的页面。（2分）

A.正确
B.错误

9.正则表达式无法实现特殊字符的匹配。（1分）

A.正确
B.错误

10.网络爬虫实际上是一种"自动化浏览网络”的程序。（1分）

A.正确
B.错误

11.数据的（）指的是数据是否易于获取、易于理解和易于使用。（2分）

A.完备性
B.苏轼
C.关汉卿
D.李清照

12.网络爬虫总是要从某个起点开始爬，这个起点叫做种子。（1分）

A.正确
B.错误

13.通用网络爬虫对于爬行速度和存储空间要求较低。（1分）

A.正确
B.错误

14.字符串d匹配正则表达式“\d｛1,3｝”。

15.POST提交的数据大小有限制，最多只能有1024字节。

16.正则表达式中的\s表示任意数字。

17.以下关于正则表达式中常用正则规则的说法，不正确的有（）

A.\w表示字母、数字、下划线
B.\d表示数字，相当于[0-9]
C.\D表示数字，相当于[0-9]
D.\D表示非数字

18.字符串12匹配正则表达式“\d｛1,3｝”。

19.以下哪个属于HTTP请求信息（）。

A.Accept-Ranges
B.User-Agent
C.Expires
D.Content-Length

20.HTTP请求的DELETE方法请求服务器删除Request-URI所标识的资源。

21.以下不能匹配正则表达式"^[\d]+$"的是（）。

A.12abc
B.12
C.10
D.123

22.以下不属于数据质量的规范、完整性要求的是（）

A.参照完整性未被破坏：数据不会找不到参照
B.遗留系统相关信息与其他模块要一致
C.数据在内部一致
D.不存在交叉系统匹配违规，数据被很好集成

23.以下不能匹配正则表达式"^[\d]+$"的是（）。

A.10
B.123
C.12abc
D.12

24.不符合要求的数据就是指错误的数据。

25.HTTP响应中的（）用于重定向一个新的位置。

A.Refresh
B.WWW-Authenticate
C.Connection
D.Location

26.GET提交表单时，以（）符号分割URL和传输数据。

A.&
B.||
C.?
D.*

27.数据转换不包括（）。

A.商务规则的计算
B.不完整的数据
C.不一致数据转换
D.数据粒度的转换

28.以下关于正则表达式的说法，不正确的是（）

A.主流开发语言C++、Java均不支持正则表达式
B.正则表达式是对字符串操作的一种逻辑公式
C.正则表达式的使用非常灵活性，逻辑性和功能性非常强
D.正则表达式是一种文本模式，模式描述在搜索文本时要匹配的一个或多个字符串

29.如果HTTP请求的响应信息是404，则应采取下列哪项措施（）。

A.向管理员请求用户名和密码
B.再次核对请求的页面地址是否正确
C.检查浏览器权限
D.向网管报障

30.发出的HTTP请求由三部分组成，分别是：（）。

A.应答行、消息报头、请求正文
B.请求行、请求正文
C.消息报头、请求正文
D.请求行、消息报头、请求正文

31.（）采集的目标是那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的，只有用户提交一些关键词才能获得的Web页面。

A.聚焦网络爬虫
B.增量式网络爬虫
C.深层网络爬虫
D.通用网络爬虫

32.正则表达式中，（）表示匹配反斜线。

A.\
B.^
C.\w
D.\

33.数据转换不包括（）。

A.不完整的数据
B.数据粒度的转换
C.不一致数据转换
D.商务规则的计算

34.POST方法请求服务器删除Request-URI所标识的资源。

35.DeepWeb爬虫爬行过程中表单填写的方法有（）。

A.基于内容评价的表单填写
B.基于领域知识的表单填写
C.基于网页结构分析的表单填写
D.基于PageRank的表单填写

36.关于聚焦爬虫，以下说法正确的有（）

A.可以很好地满足一些特定人群对特定领域信息的需求
B.其工作流程较为复杂
C.需要根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列
D.将根据一定的搜索策略从队列中选择下一步要抓取的网页URL，并重复上述过程，直到达到系统的某一条件时停止

37.HTTP响应中的ETag用于把cookie发送到客户端浏览器。

38.表层网页（SurfaceWeb）中可访问信息容量是深层网页（DeepWeb）的几百倍。

39.对于无效数据、缺失数据，直接删除即可。

40.字符串“abc”可以匹配正则表达式“\w｛3｝”。

41.GET和POST的区别，以下说法正确的有（）。

A.POST提交的数据会放在URL之后
B.POST方式通过Reques
C.Form来获取变量的值
D.GET方式需要使用Reques
E.QueryString来取得变量的值
F.GET提交的数据会放在URL之后

42.表层网页是以超链接可以到达的静态网页为主构成的Web页面。

43.对于不同格式的数据，需要规范化数据格式。

44.数据质量具体表现只有正确性。

45.网络爬虫技术不支持图片、音频、视频等文件或附件的采集。

46.数据清洗是一个一次性的过程。

47.HTTP的请求头域可能包含下列字段（）。

A.Authorization
B.User-Agent
C.Host
D.Accept

48.DeepWeb爬虫体系结构中的LVS用于（）。

A.初始URL集合
B.待爬行URL集
C.本地页面URL集
D.表示填充表单的数据源

49.以下哪个HTTP响应状态表示服务器端错误（）

A.500
B.300
C.200
D.403

50.聚焦网络爬虫，是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫。

51.以下不属于HTTP协议请求方法的是（）

A.POST
B.GET
C.SUBMIT
D.TRACE

52.正则表达式的规则中，（）表示数字，相当于[0-9]。

A.^
B.\w
C.\W
D.\d

53.增量式爬虫不需要对网页的重要性排序。

54.以下字符串能匹配正则表达式"^[a-z][0-9]$”的是（）

A.ab
B.1
C.a
D.a1

55.数据预处理时不需要进行数据正确性的验证。

56.深层网页中包含的信息远远少于表层网页，没什么爬取价值。

57.HTTP响应中的Content-Encoding用于WEB服务器告诉浏览器自己响应的对象所用的自然语言。

58.深层网络爬虫的基于网页结构分析的表单填写法一般将网页表单表示成（），从中提取表单各字段值。

A.图像
B.BOM树
C.文本
D.DOM树

59.以下不能匹配正则表达式"^[\d]+$"的是（）。

A.123
B.12
C.12abc
D.10

60.数据的（）指的是数据是否易于获取、易于理解和易于使用。

A.李清照
B.苏轼
C.关汉卿
D.完备性

61.（）的爬虫针对的是网页上的数据，所抓取的数据一般要符合一定的模式，或者可以转化或映射为目标数据模式。

A.基于领域概念
B.深层网络爬虫
C.基于目标数据模式
D.基于目标网页特征

62.（）描述了一种字符串匹配的模式，通常被用来检索、替换那些符合某个模式(规则)的文本。

A.正则表达式
B.数据采集
C.网络爬虫
D.字符集

63.通用网络爬虫爬取网页时，由于待刷新的页面太多，需要较长时间才能刷新一次页面。

64.HTTP请求方法中的DELETE用于请求服务器删除Request-URI所标识的资源。

65.不同的数据库之间如果不能建立数据库链接，可以将源数据导出成.txt或者是.xls文件，然后再将这些源系统文件导入，也可以通过程序接口来完成。

66.数据的（）指的是数据是否易于获取、易于理解和易于使用。

A.完备性
B.苏轼
C.李清照
D.关汉卿

67.HTTP请求中的Range头域内容包含发出请求的用户信息。

68.PageRank优先策略可用于通用网络爬虫。

69.增量式爬虫不需要评价网页内容的重要性。

70.HTTP请求中的（）方法要求被请求服务器接受附在请求后面的数据，常用于提交表单。

A.PUT
B.TRACE
C.POST
D.GET

71.正则表达式[^A-Za-z_0-9]等价于（）。

A.^
B.\W
C.\w
D.\d

72.可以通过网络爬虫或网站公开API等方式从网站上获取数据信息。

73.小的网站将没有爬虫访问。

74.数据的预处理ETL的T表示（）。

A.转换
B.清洗
C.加载
D.抽取

75.正则表达式[a-z]可以匹配()。

A."a”到"z”范围内的任意字母字符
B."a”到"z”范围内的任意小写字母字符
C.小写字母字符"a”或"z”
D.字母字符"a”或"z”

76.增量式爬虫的主要目标有：（）。

A.过滤与主题无关的链接
B.提高本地页面集中页面的质量
C.对以后的抓取过程给出反馈和指导
D.过滤与主题无关的链接

77.在HTTP请求中，通过（）方法发送的数据，会放在URL之后，以?分割URL和传输数据，参数之间以&相连。

A.TRACE
B.POST
C.PUT
D.GET

78.数据质量具体表现为正确性、完整性、一致性、完备性、有效性、时效性和可获取性等几个特性。

79.发送了一个HTTP请求后，客户端收到一个200的响应，这表示（）。

A.登录失败
B.请求成功
C.重定向到其他URL
D.拒绝访问

80.以下关于正则表达式的说法，不正确的是（）

A.正则表达式是对字符串操作的一种逻辑公式
B.主流开发语言C++、Java均不支持正则表达式
C.正则表达式是一种文本模式，模式描述在搜索文本时要匹配的一个或多个字符串
D.正则表达式的使用非常灵活性，逻辑性和功能性非常强

81.现有聚焦爬虫对抓取目标的描述只包括基于目标数据模式这种方式。

82.数据采集的来源只有系统日志采集。

83.HTTP响应中的Content-Length不需要预先在服务器中缓存所有数据。

84.影响质量问题的原因不包括（）。

A.数据的不稳定性问题
B.数据的获取方式多样性问题
C.数据的时间差异性问题
D.数据的依赖性问题

85.增量式爬虫的主要目标有：（）。

A.提高本地页面集中页面的质量
B.过滤与主题无关的链接
C.过滤与主题无关的链接
D.对以后的抓取过程给出反馈和指导

86.Java语言不支持正则表达式。。

87.（）只会在需要的时候爬行新产生或发生更新的页面，并不重新下载没有发生变化的页面，可有效减少数据下载量，及时更新已爬行的网页，减小时间和空间上的耗费，但是增加了爬行算法的复杂度和实现难度。

A.聚焦网络爬虫
B.深层网络爬虫
C.通用网络爬虫
D.增量式网络爬虫

88.以下关于深度优先的爬行策略的说法，正确的有（）

A.其基本方法是按照深度由低到高的顺序，依次访问下一级网页链接，直到不能再深入为止
B.爬虫在完成一个爬行分支后返回到上一链接节点进一步搜索其它链接，直到所有链接遍历完
C.处于较浅目录层次的页面都可以首先被爬行
D.比较适合垂直搜索或站内搜索

89.Web页面按存在方式可以分为（）

A.表层网页
B.主题网页
C.通用网页
D.深层网页

90.为保持本地页面集中存储的页面为最新页面，增量式爬虫常用的方法有：（）。

A.基于主题的更新法
B.基于分类的更新法
C.统一更新法
D.个体更新法

91.HTTP请求头中（）域的内容包含发出请求的用户信息，例如使用的客户端名称和版本号等。

A.Host
B.Cookie
C.Referer
D.User-Agent

92.DeepWeb爬虫结构中的LVS（LabelValueSet）是用来表示填充表单的数据源。

93.正则表达式的规则中，（）表示数字，相当于[0-9]。

A.\w
B.^
C.\W
D.\d

94.HTTP请求中的（）方法用于请求服务器存储一个资源，并用Request-URI作为其标识。

A.GET
B.PUT
C.TRACE
D.POST

95.聚焦网络爬虫又称全网爬虫。

96.使用ETL工具处理数据周期较长。

97.GET提交表单时，以（）符号分割URL和传输数据。

A.?
B.||
C.&
D.*

98.HTTP是一个客户端和服务器端请求和应答的标准。

99.HTTP响应中的Expires表示浏览器应该在多少时间之后刷新文档。

100.用户注册后内容才可见的网页属于表层网页。

星绘搜题

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据采集与管理【10】

1.HTTP状态码200表示请求成功。（2分）A.正确B.错误2.以下不属于HTTP协议的主要特点的是（）。（2分）A.支持客户/服务器模式B.支持基本认证和安全认证C.简单快速D.有状态3.目前互联网上的信息分类大多数都是人工完成的。（1分）A.正确B.错误4.聚焦网络爬虫爬行页面的顺序要求相对较低。（1分）A.正确B.错误5.Web服务器不保存发送请求的Web浏览器进程的任何信息。（1分）A.正确B.错误6.表层网页（SurfaceWeb）是互联网上
复制链接

扫一扫