数据采集与管理【5】

星绘搜题

于 2022-02-16 10:01:32 发布

阅读量1.1k

点赞数

本文链接：https://blog.csdn.net/robin9409/article/details/122957356

版权

1.Java.Python等语言也支持正则表达式。

A.对
B.错

2.HTTP协议是无状态协议。

A.对
B.错

3.HTTP请求的Keep-Alive对服务器没有负面影响。

A.对
B.错

4.HTTP响应中Content-Type用于指明响应的对象所用的自然语言。

A.对
B.错

5.数据转换的主要进行不一致的数据转换、数据粒度的转换，以及一些商务规则的计算。

A.对
B.错

6.通用网络爬虫对于爬行速度和存储空间要求较低。

A.对
B.错

7.深层网页（DeepWeb）的内容课通过静态链接获取。

A.对
B.错

8.POST方式提交表单数据，会带来安全问题。

A.对
B.错

9.随着网络的迅速发展，不断优化的网络爬虫技术正在有效地应对各种挑战，为高效搜索用户关注的特定领域与主题提供了有力支撑。

A.对
B.错

10.正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。

A.对
B.错

11.HTTP的请求头域可能包含Accept、Accept-Charset、Accept-Encoding、Accept-Language等字段。

A.对
B.错

12.数据转换时，对于空值的处理，可通过加载或替换为其他含义数据，并根据字段空值实现分流加载到不同目标库。

A.对
B.错

13.正则表达式中\w表示任意数字字符。

A.对
B.错

14.表层网页（SurfaceWeb）是互联网上最大、发展最快的新型信息资源。

A.对
B.错

15.市场上的大部分Web服务器，都不支持HTTPKeep-Alive。

A.对
B.错

16.聚焦爬虫根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。

A.对
B.错

17.网络爬虫顺着网页及其超链接组成的网爬行，每到一个网页就用抓取程序将这个网页抓下来，将内容抽取出来，同时抽取超链接，作为进一步爬行的线索。

A.对
B.错

18.大数据是信息技术领域的又一创新浪潮，改变着人们的生活与工作方式与企业的运作模式。

A.对
B.错

19.HTTP请求的GET方法请求获取由Request-URI所标识的资源的响应消息报头。

A.对
B.错

20.正则表达式的量词*表示0次或多次。

A.对
B.错

21.网络爬虫技术不支持图片、音频、视频等文件或附件的采集。

A.对
B.错

22.HTTP请求中的Keep-Alive功能使客户端到服务器端的连接持续有效。

A.对
B.错

23.网络爬虫抓取各种资源后，通过相应的索引技术组织这些信息，提供给用户进行查询。

A.对
B.错

24.正则表达式中，量词可以匹配一个表达式多次出现。

A.对
B.错

25.（）的基本方法是按照深度由低到高的顺序，依次访问下一级网页链接，直到不能再深入为止。

A.深度优先策略
B.广度优先策略
C.PageRank优先策略
D.随机爬行策略

26.数据质量的（）表示所有需要的数据是否都存在。

A.正确性
B.完整性
C.一致性
D.完备性

27.以下关于网络爬虫的说法，不正确的是（）。

A.网络爬虫实际上是一种"自动化浏览网络”的程序，或者说是一种网络机器人
B.网络爬虫被广泛用于互联网搜索引擎或其他类似网站
C.传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列直到满足系统的一定停止条件
D.目前互联网上的信息分类大多数都是人工完成的

28.正则表达式中的量词可以匹配一个表达式多次出现，其中（）表示0次或多次。

A.*
B.+
C.?
D.^

29.以下不能匹配正则表达式"^[\w]+$"的是（）。

A.S+1
B.12
C.S_1
D.S1

30.以下哪个属于深层网页（）

A.超链接可以到达的静态网页
B.网站首页
C.用户注册后内容才可见的网页
D.网站导航页

31.HTTP请求中的Connection:keep-alive表示（）

A.客户端设备类型
B.客户端到服务器端的连接持续有效
C.客户端网络类型
D.客户端指定请求uri的源资源地址

32.HTTP请求的（）能使客户端到服务器端的连接持续有效，当出现对服务器的后继请求时，避免了建立或者重新建立连接。

A.Host
B.Keep-Alive
C.Cookie
D.Referer

33.DeepWeb爬虫体系结构包含六个基本功能模块和两个爬虫内部数据结构，其中（）表示标签/数值集合，用来表示填充表单的数据源。

A.URL列表
B.LVS表
C.爬行控制器
D.响应分析器

34.以下哪个不属于HTTP请求信息（）。

A.User-Agent
B.Connection
C.Accept-Language
D.Expires

35.DeepWeb爬虫体系结构中的LVS用于（）。

A.初始URL集合
B.表示填充表单的数据源
C.本地页面URL集
D.待爬行URL集

36.（）只会在需要的时候爬行新产生或发生更新的页面，并不重新下载没有发生变化的页面，可有效减少数据下载量，及时更新已爬行的网页，减小时间和空间上的耗费，但是增加了爬行算法的复杂度和实现难度。

A.聚焦网络爬虫
B.增量式网络爬虫
C.通用网络爬虫
D.深层网络爬虫

37.HTTP响应中的（）指明实体正文的长度，以字节方式存储的十进制数字来表示。

A.Content-Language
B.Content-Encoding
C.Content-Range
D.Content-Length

38.HTTP请求中的（）方法要求被请求服务器接受附在请求后面的数据，常用于提交表单。

A.GET
B.POST
C.PUT
D.TRACE

39.以下关于深度优先的爬行策略的说法，不正确的有（）。

A.其基本方法是按照深度由低到高的顺序，依次访问下一级网页链接，直到不能再深入为止
B.爬虫在完成一个爬行分支后返回到上一链接节点进一步搜索其它链接，直到所有链接遍历完
C.比较适合垂直搜索或站内搜索
D.处于较浅目录层次的页面都可以首先被爬行

40.以下属于HTTP协议的主要特点的是（）。

A.HTTP只允许传输指定类型的数据对象
B.HTTP协议是无状态协议
C.HTTP1.1使用非持续连接
D.HTTP不支持安全认证

41.正则表达式中有一些预定义的字符分类，其中,（）表示任意空白字符。

A.\s
B.\d
C.\w
D.$

42.正则表达式支持匹配边界。例如()匹配行尾。

A.^
B.\d
C.\w
D.$

43.关于各种网络爬虫，以下说法不正确的是（）。

A.增量式爬虫在需要的时候爬行新产生或发生更新的页面，并重新下载所有页面
B.通用网络爬虫通常采用并行工作方式，但需要较长时间才能刷新一次页面。
C.通用网络爬虫适用于为搜索引擎搜索广泛的主题，有较强的应用价值。
D.聚焦爬虫根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。

44.正则表达式[^A-Za-z_0-9]等价于（）。

A.^
B.\d
C.\W
D.\w

45.聚焦爬虫爬行策略实现的关键是评价（）的重要性，不同的方法计算出的重要性不同，由此导致链接的访问顺序也不同。

A.页面内容
B.页面内容和链接
C.链接
D.表单信息

46.以下不属于HTTP协议的主要特点的是（）。

A.支持客户/服务器模式
B.支持基本认证和安全认证
C.简单快速
D.有状态

47.（）是指对已下载网页采取增量式更新和只爬行新产生的或者已经发生变化网页的爬虫，它能够在一定程度上保证所爬行的页面是尽可能新的页面。

A.聚焦网络爬虫
B.增量式网络爬虫
C.通用网络爬虫
D.深层网络爬虫

48.HTTP请求中的（）方法用于请求服务器回送收到的请求信息，主要用于测试或诊断。

A.GET
B.DELETE
C.PUT
D.TRACE

49.GET提交表单时，以（）符号分割URL和传输数据。

A.?
B.||
C.*
D.&

50.HTTP响应中的（）用于重定向一个新的位置。

A.Location
B.Connection
C.Refresh
D.WWW-Authenticate

51.（），又称主题网络爬虫，是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫。

A.聚焦网络爬虫
B.增量式网络爬虫
C.通用网络爬虫
D.深层网络爬虫

52.增量式爬虫中的（）指的是：爬虫根据个体网页的改变频率来重新访问各页面。

A.统一更新法
B.基于分类的更新法
C.个体更新法
D.随机更新法

53.正则表达式中的量词可以匹配一个表达式多次出现，()表示1次或多次。

A.*
B.+
C.?
D.^

54.使用（）方法提交表单数据，会带来安全问题，比如一个登录页面，通过这种方式提交数据时，用户名和密码将出现在URL上，如果页面可以被缓存或者其他人可以访问这台机器，就可以从历史记录获得该用户的账号和密码。

A.GET
B.DELETE
C.PUT
D.TRACE

55.以下关于HTTP请求方法GET的说法，正确的是（）。

A.请求服务器删除Request-URI所标识的资源
B.请求获取Request-URI所标识的资源
C.请求服务器回送收到的请求信息
D.请求查询服务器的性能

56.以下字符串能匹配正则表达式"^[a-z][0-9]$”的是（）

A.a1
B.a
C.1
D.ab

57.（）是指发现并纠正数据文件中可识别的一些错误。

A.数据采集
B.数据清洗
C.数据分析
D.数据集成

58.如果HTTP请求的响应信息是404，则应采取下列哪项措施（）。

A.向网管报障
B.再次核对请求的页面地址是否正确
C.向管理员请求用户名和密码
D.检查浏览器权限

59.关于HTTP请求方法中GET和POST的区别，以下说法不正确的是（）。

A.GET提交的数据会放在URL之后，以?分割URL和传输数据，参数之间以&相连
B.POST方法是把提交的数据放在HTTP包的Body中
C.GET提交的数据大小有限制
D.POST方式提交数据，会带来安全问题

60.以下哪个HTTP响应状态表示客户端错误（）。

A.200
B.300
C.403
D.500

61.正则表达式中，[abc]表示（）。

A.字符a,b或c
B.字符a
C.同时包含abd的字符串
D.字符串abc

62.以下不属于数据清洗要处理的对象的是（）。

A.规范的数据
B.不完整的数据
C.错误的数据
D.重复的数据

63.HTTP响应中的（）表示WEB服务器告诉浏览器自己响应的对象的类型和字符集。

A.Content-Type
B.Content-Range
C.Content-Length
D.Content-Encoding

64.正则表达式的规则中，x|y表示匹配（）

A.x和y
B.x或y
C.xy
D.x+y

65.HTTP请求中的（）方法用于请求服务器存储一个资源，并用Request-URI作为其标识。

A.GET
B.POST
C.PUT
D.TRACE

66.发送了一个HTTP请求后，客户端收到一个200的响应，这表示（）。

A.拒绝访问
B.登录失败
C.重定向到其他URL
D.请求成功

67.以下对于爬行策略的说法，不正确的是（）。

A.深度优先策略比较适合垂直搜索或站内搜索，但爬行页面内容层次较深的站点时会造成资源的巨大浪费。
B.广度优先策略能够有效控制页面的爬行深度，避免遇到一个无穷深层分支时无法结束爬行的问题
C.通用网络爬虫常用的爬行策略有：深度优先策略、广度优先策略
D.深度优先策略不足之处在于需较长时间才能爬行到目录层次较深的页面。

68.HTTP请求的响应状态码为403表示（）。

A.请求成功
B.对被请求页面的访问被禁止
C.服务器忙
D.服务器连接超时

69.正则表达式中有一些预定义的字符分类，其中,（）表示任意数字。。

A.\s
B.\d
C.\w
D.$

70.HTTP请求中的（）字段可能为类似"Mozilla/5.0(iPhone;U;CPUiPhoneOS4_3_3likeMacOSX;en-us)AppleWebKit……”这样的信息。

A.User-Agent
B.Host
C.Cookie
D.Connection

71.以下不能匹配正则表达式"^[\d]+$"的是（）。

A.12abc
B.12
C.123
D.10

72.数据的预处理ETL的T表示（）。

A.抽取
B.转换
C.加载
D.清洗

73.追求高数据质量是对大数据的一项重要要求，要消除某些数据的不可预测性，去掉一些"杂乱”的"脏”数据，就涉及到()技术。

A.数据采集
B.数据统计
C.数据清洗
D.数据预测

74.PageRank优先策略常用于（）。

A.通用网络爬虫
B.所有网络爬虫
C.增量式网络爬虫
D.DeepWeb爬虫

75.HTTP请求中的（）头域允许客户端指定请求uri的源资源地址，这可以允许服务器生成回退链表，可用来登陆、优化cache等。

A.Accept
B.User-Agent
C.Cookie
D.Referer

76.HTTP请求中（）头域的内容包含发出请求的用户信息。

A.Accept
B.Referer
C.User-Agent
D.Cookie

77.对于不完整的数据，例如一些应该有的信息缺失，如信息缺失、主表与明细表不能匹配等，应进行数据（）。

A.抽取
B.转换
C.加载
D.清洗

78.网络数据采集是指通过（）或网站公开API等方式从网站上获取数据信息。。

A.浏览器
B.服务器
C.播放器
D.网络爬虫

79.HTTP请求中的（）方法用于请求服务器删除Request-URI所标识的资源。

A.GET
B.DELETE
C.PUT
D.TRACE

80.深层网络（DeepWeb）爬虫爬行过程中最重要部分就是（）。

A.主题定义
B.表单填写
C.链接评价
D.内容评价

81.在HTP响应信息中，若状态信息码是200则表示（）。

A.请求成功
B.登录失败
C.所请求的页面已经转移至新的url
D.访问被禁止

82.HTTP请求中的（）头域指定请求资源的Intenet主机和端口号，必须表示请求url的原始服务器或网关的位置。

A.Host
B.User-Agent
C.Cookie
D.Referer

83.（）的爬虫针对的是网页上的数据，所抓取的数据一般要符合一定的模式，或者可以转化或映射为目标数据模式。

A.基于目标网页特征
B.基于领域概念
C.基于目标数据模式
D.深层网络爬虫

84.HTTP请求中的（）头域代表发送端（客户端）希望接受的数据类型。

A.Accept
B.User-Agent
C.Cookie
D.Referer

85.由HTTP客户端发起一个请求，建立一个到服务器指定端口的TCP连接，这个端口默认是（）端口。

A.80
B.81
C.88
D.10

86.增量式爬虫中的（）指的是：爬虫以相同的频率访问所有网页，不考虑网页的改变频率。

A.统一更新法
B.基于分类的更新法
C.个体更新法
D.随机更新法

87.通过使用Web浏览器、网络爬虫或者其它的工具，客户端发起一个到服务器上指定端口的HTTP请求。我们称这个客户端叫（）。

A.数据库
B.播放器
C.用户代理
D.源服务器

88.数据质量的（）表示数据是否正确的表示了现实或可证实的来源。

A.正确性
B.完整性
C.一致性
D.完备性

89.正则表达式的规则中，（）表示数字，相当于[0-9]。

A.^
B.\d
C.\W
D.\w

90.以下不属于数据质量的规范、完整性要求的是（）

A.参照完整性未被破坏：数据不会找不到参照
B.不存在交叉系统匹配违规，数据被很好集成
C.数据在内部一致
D.遗留系统相关信息与其他模块要一致

91.以下关于正则表达式中常用正则规则的说法，不正确的有（）

A.\d表示数字，相当于[0-9]
B.\w表示字母、数字、下划线
C.\D表示数字，相当于[0-9]
D.\D表示非数字

92.增量式爬虫中的（）指的是：爬虫根据网页改变频率将其分为更新较快网页子集和更新较慢网页子集两类，然后以不同的频率访问这两类网页。

A.统一更新法
B.基于分类的更新法
C.个体更新法
D.随机更新法

93.HTTP请求中的（）头域的内容包含发出请求的用户信息。

A.Authorization
B.User-Agent
C.Cookie
D.Referer

94.（）又称全网爬虫，爬行对象从一些种子URL扩充到整个Web，主要为门户站点搜索引擎和大型Web服务提供商采集数据。

A.聚焦网络爬虫
B.增量式网络爬虫
C.通用网络爬虫
D.深层网络爬虫

95.HTTP响应中的（）表示浏览器应该在多少秒之后刷新文档。

A.Connection
B.Refresh
C.Location
D.WWW-Authenticate

96.以下能匹配正则表达式"^[A-Za-z]+$"的是（）。

A.a3
B.abc
C.33
D.ab

97.正则表达式[a-z]可以匹配()。

A.字母字符"a”或"z”
B.小写字母字符"a”或"z”
C."a”到"z”范围内的任意字母字符
D."a”到"z”范围内的任意小写字母字符

98.如果要采集指定的数据，则需要使用到（），因为它只需要爬行与主题相关的页面，极大地节省了硬件和网络资源，保存的页面也由于数量少而更新快。

A.聚焦网络爬虫
B.增量式网络爬虫
C.通用网络爬虫
D.深层网络爬虫

99.正则表达式中有一些预定义的字符分类，其中,（）表示任意单词字符。。

A.\s
B.\d
C.\w
D.$

100.以下哪个HTTP响应状态表示服务器端错误（）

A.200
B.300
C.403
D.500

星绘搜题

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫