数据采集与管理【1】

1.正则表达式支持匹配边界。例如,()匹配行首。。

A.^
B.\d
C.\w
D.$

2.数据的预处理ETL的L表示()。

A.抽取
B.清洗
C.转换
D.加载

3.以下不属于数据质量的规范、完整性要求的是

A.数据在内部一致
B.参照完整性未被破坏:数据不会找不到参照
C.不存在交叉系统匹配违规,数据被很好集成
D.遗留系统相关信息与其他模块要一致

4.以下关于深度优先的爬行策略的说法,不正确的有()。

A.爬虫在完成一个爬行分支后返回到上一链接节点进一步搜索其它链接,直到所有链接遍历完
B.其基本方法是按照深度由低到高的顺序,依次访问下一级网页链接,直到不能再深入为止
C.比较适合垂直搜索或站内搜索
D.处于较浅目录层次的页面都可以首先被爬行

5.GET提交表单时,以()符号分割URL和传输数据。

A.?
B.||
C.&
D.*

6.数据()的任务是过滤那些不符合要求的数据。

A.抽取
B.清洗
C.加载
D.转换

7.正则表达式中的量词可以匹配一个表达式多次出现,()表示1次或多次。

A.^
B.?
C.+
D.*

8.增量式爬虫中的()指的是:爬虫根据网页改变频率将其分为更新较快网页子集和更新较慢网页子集两类,然后以不同的频率访问这两类网页。

A.随机更新法
B.个体更新法
C.基于分类的更新法
D.统一更新法

9.以下哪个不属于HTTP请求信息()。

A.Accept-Language
B.Expires
C.Connection
D.User-Agent

10.数据的()指的是数据是否易于获取、易于理解和易于使用。

A.苏轼
B.关汉卿
C.李清照
D.完备性

11.正则表达式中的量词可以匹配一个表达式多次出现,其中()表示0次或多次。

A.*
B.+
C.?
D.^

12.以下不属于数据清洗要处理的对象的是()。

A.规范的数据
B.重复的数据
C.不完整的数据
D.错误的数据

13.以下属于HTTP协议的主要特点的是()。

A.HTTP1.1使用非持续连接
B.HTTP只允许传输指定类型的数据对象
C.HTTP协议是无状态协议
D.HTTP不支持安全认证

14.HTTP请求中的()方法用于请求服务器回送收到的请求信息,主要用于测试或诊断。

A.DELETE
B.GET
C.PUT
D.TRACE

15.采集的目标是那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的,只有用户提交一些关键词才能获得的Web页面。

A.增量式网络爬虫
B.通用网络爬虫
C.深层网络爬虫
D.聚焦网络爬虫

16.以下哪个属于深层网页

A.超链接可以到达的静态网页
B.网站首页
C.用户注册后内容才可见的网页
D.网站导航页

17.对发出的HTTP请求应答的服务器上存储着一些资源,比如HTML文件和图像。我们称这个应答服务器为()。

A.浏览器
B.源服务器
C.播放器
D.用户代理

18.的爬虫针对的是网页上的数据,所抓取的数据一般要符合一定的模式,或者可以转化或映射为目标数据模式。

A.基于目标数据模式
B.基于目标网页特征
C.基于领域概念
D.深层网络爬虫

19.正则表达式中,[abc]表示()。

A.字符a
B.字符a,b或c
C.同时包含abd的字符串
D.字符串abc

20.在HTP响应信息中,若状态信息码是200则表示()。

A.请求成功
B.登录失败
C.访问被禁止
D.所请求的页面已经转移至新的url

21.HTTP请求中的()方法用于请求服务器删除Request-URI所标识的资源。

A.GET
B.TRACE
C.PUT
D.DELETE

22.关于表层网页及深层网页,以下说法不正确的是()。

A.深层网页爬虫主要用于爬去因此在搜索表单后的深层网页。
B.深层网页中包含的信息远远少于表层网页。
C.深层网页是那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的,只有用户提交一些关键词才能获得的Web页面。
D.表层网页是指传统搜索引擎可以索引的页面,以超链接可以到达的静态网页为主构成的Web页面。

23.影响质量问题的原因不包括()。

A.数据的依赖性问题
B.数据的不稳定性问题
C.数据的获取方式多样性问题
D.数据的时间差异性问题

24.一次HTTP由()组成。

A.一次请求和一次响应
B.2次请求
C.一次响应
D.一次请求

25.以下字符串能匹配正则表达式"^[a-z][0-9]$”的是

A.a
B.1
C.ab
D.a1

26.正则表达式支持匹配边界。例如()匹配行尾。

A.^
B.\d
C.\w
D.$

27.正则表达式中有一些预定义的字符分类,其中,()表示任意空白字符。

A.\s
B.$
C.\d
D.\w

28.数据质量的()表示数据是否正确的表示了现实或可证实的来源。

A.一致性
B.正确性
C.完整性
D.完备性

29.正则表达式中有一些预定义的字符分类,其中,()表示任意单词字符。。

A.\d
B.\s
C.\w
D.$

30.以下不属于HTTP协议请求方法的是

A.GET
B.POST
C.SUBMIT
D.TRACE

31.关于HTTP请求方法中GET和POST的区别,以下说法不正确的是()。

A.GET提交的数据会放在URL之后,以?分割URL和传输数据,参数之间以&相连
B.POST方法是把提交的数据放在HTTP包的Body中
C.GET提交的数据大小有限制
D.POST方式提交数据,会带来安全问题

32.HTTP响应中的()用于重定向一个新的位置。

A.Location
B.WWW-Authenticate
C.Connection
D.Refresh

33.以下不能匹配正则表达式"^[\d]+$"的是()。

A.123
B.12abc
C.12
D.10

34.HTTP响应中的()指明实体正文的长度,以字节方式存储的十进制数字来表示。

A.Content-Encoding
B.Content-Language
C.Content-Range
D.Content-Length

35.HTTP响应中的()表示浏览器应该在多少秒之后刷新文档。

A.Connection
B.Refresh
C.WWW-Authenticate
D.Location

36.以下关于网络爬虫的说法,不正确的是()。

A.网络爬虫实际上是一种"自动化浏览网络”的程序,或者说是一种网络机器人
B.目前互联网上的信息分类大多数都是人工完成的
C.传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列直到满足系统的一定停止条件
D.网络爬虫被广泛用于互联网搜索引擎或其他类似网站

37.DeepWeb爬虫体系结构中的LVS用于()。

A.待爬行URL集
B.本地页面URL集
C.表示填充表单的数据源
D.初始URL集合

38.通过使用Web浏览器、网络爬虫或者其它的工具,客户端发起一个到服务器上指定端口的HTTP请求。我们称这个客户端叫()。

A.源服务器
B.用户代理
C.播放器
D.数据库

39.正则表达式的规则中,x|y表示匹配

A.xy
B.x+y
C.x或y
D.x和y

40.HTTP请求中的()头域允许客户端指定请求uri的源资源地址,这可以允许服务器生成回退链表,可用来登陆、优化cache等。

A.User-Agent
B.Cookie
C.Referer
D.Accept

41.关于表层网页及深层网页,以下说法不正确的是()。

A.表层网页是指传统搜索引擎可以索引的页面,以超链接可以到达的静态网页为主构成的Web页面。
B.深层网页是那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的,只有用户提交一些关键词才能获得的Web页面。
C.深层网页中包含的信息远远少于表层网页。
D.深层网页爬虫主要用于爬去因此在搜索表单后的深层网页。

42.以下不能匹配正则表达式"^[\d]+$"的是()。

A.12abc
B.12
C.123
D.10

43.使用()方法提交表单数据,会带来安全问题,比如一个登录页面,通过这种方式提交数据时,用户名和密码将出现在URL上,如果页面可以被缓存或者其他人可以访问这台机器,就可以从历史记录获得该用户的账号和密码。

A.GET
B.DELETE
C.PUT
D.TRACE

44.HTTP响应中的()指明实体正文的长度,以字节方式存储的十进制数字来表示。

A.Content-Language
B.Content-Encoding
C.Content-Range
D.Content-Length

45.的搜索策略是指按照深度由低到高的顺序,依次访问下一级网页链接,直到不能再深入为止,比较适合垂直搜索或站内搜索。

A.广度优先
B.深度优先
C.基于目标特征
D.基于领域

46.HTTP请求头中()域的内容包含发出请求的用户信息,例如使用的客户端名称和版本号等。

A.Host
B.User-Agent
C.Cookie
D.Referer

47.HTTP响应中的()表示WEB服务器告诉浏览器自己响应的对象的类型和字符集。

A.Content-Type
B.Content-Range
C.Content-Length
D.Content-Encoding

48.HTTP响应中的()等分别用于指定消息发送和文档过期的时间。

A.Date,Expires
B.Date,Allow
C.Last-Modified,Allow
D.Last-Modified,Expires

49.以下关于HTTP请求方法GET的说法,正确的是()。

A.请求服务器删除Request-URI所标识的资源
B.请求获取Request-URI所标识的资源
C.请求服务器回送收到的请求信息
D.请求查询服务器的性能

50.HTTP响应中的()表示浏览器应该在多少秒之后刷新文档。

A.Connection
B.Refresh
C.Location
D.WWW-Authenticate

51.在HTTP响应信息中,若状态信息码是404则表示()。

A.没有找到请求的页面
B.登录失败
C.所请求的页面已经转移至新的url
D.访问被禁止

52.采集的目标是那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的,只有用户提交一些关键词才能获得的Web页面。

A.聚焦网络爬虫
B.增量式网络爬虫
C.通用网络爬虫
D.深层网络爬虫

53.DeepWeb爬虫体系结构包含六个基本功能模块和两个爬虫内部数据结构,其中()表示标签/数值集合,用来表示填充表单的数据源。

A.URL列表
B.LVS表
C.爬行控制器
D.响应分析器

54.正则表达式的规则中,x|y表示匹配

A.x和y
B.x或y
C.xy
D.x+y

55.以下关于正则表达式中常用正则规则的说法,不正确的有

A.\d表示数字,相当于[0-9]
B.\w表示字母、数字、下划线
C.\D表示数字,相当于[0-9]
D.\D表示非数字

56.PageRank优先策略常用于()。

A.通用网络爬虫
B.所有网络爬虫
C.增量式网络爬虫
D.DeepWeb爬虫

57.正则表达式中有一些预定义的字符分类,其中,()表示任意数字。。

A.\s
B.\d
C.\w
D.$

58.在HTTP请求中,通过()方法发送的数据,会放在URL之后,以?分割URL和传输数据,参数之间以&相连。

A.GET
B.POST
C.PUT
D.TRACE

59.以下关于深度优先的爬行策略的说法,不正确的有()。

A.其基本方法是按照深度由低到高的顺序,依次访问下一级网页链接,直到不能再深入为止
B.爬虫在完成一个爬行分支后返回到上一链接节点进一步搜索其它链接,直到所有链接遍历完
C.比较适合垂直搜索或站内搜索
D.处于较浅目录层次的页面都可以首先被爬行

60.以下关于正则表达式中数量表示规则的说法,不正确的是

A.X+表示可以出现0次,1次或多次
B.X表示必须出现一次
C.X*表示可以出现0次,1次或多次
D.X+表示可以出现1次或多次

61.GET提交表单时,以()符号分割URL和传输数据。

A.?
B.||
C.*
D.&

62.如果要采集指定的数据,则需要使用到(),因为它只需要爬行与主题相关的页面,极大地节省了硬件和网络资源,保存的页面也由于数量少而更新快。

A.聚焦网络爬虫
B.增量式网络爬虫
C.通用网络爬虫
D.深层网络爬虫

63.以下哪个不属于HTTP请求信息()。

A.User-Agent
B.Connection
C.Accept-Language
D.Expires

64.HTTP响应中的()用于重定向一个新的位置。

A.Location
B.Connection
C.Refresh
D.WWW-Authenticate

65.数据质量的()表示数据是否正确的表示了现实或可证实的来源。

A.正确性
B.完整性
C.一致性
D.完备性

66.HTTP请求的()能使客户端到服务器端的连接持续有效,当出现对服务器的后继请求时,避免了建立或者重新建立连接。

A.Host
B.Keep-Alive
C.Cookie
D.Referer

67.HTTP请求中的()头域指定请求资源的Intenet主机和端口号,必须表示请求url的原始服务器或网关的位置。

A.Host
B.User-Agent
C.Cookie
D.Referer

68.以下不属于HTTP协议请求方法的是

A.GET
B.POST
C.TRACE
D.SUBMIT

69.以下字符串能匹配正则表达式"^[a-z][0-9]$”的是

A.a1
B.a
C.1
D.ab

70.以下能匹配正则表达式"^[A-Za-z]+$"的是()。

A.a3
B.abc
C.33
D.ab

71.一次HTTP由()组成。

A.一次请求
B.一次响应
C.一次请求和一次响应
D.2次请求

72.增量式爬虫中的()指的是:爬虫以相同的频率访问所有网页,不考虑网页的改变频率。

A.统一更新法
B.基于分类的更新法
C.个体更新法
D.随机更新法

73.HTTP请求中的()方法用于请求服务器删除Request-URI所标识的资源。

A.GET
B.DELETE
C.PUT
D.TRACE

74.的基本方法是按照深度由低到高的顺序,依次访问下一级网页链接,直到不能再深入为止。

A.深度优先策略
B.广度优先策略
C.PageRank优先策略
D.随机爬行策略

75.聚焦爬虫爬行策略实现的关键是评价()的重要性,不同的方法计算出的重要性不同,由此导致链接的访问顺序也不同。

A.页面内容
B.页面内容和链接
C.链接
D.表单信息

76.正则表达式中的量词可以匹配一个表达式多次出现,()表示1次或多次。

A.*
B.+
C.?
D.^

77.DeepWeb爬虫体系结构中的LVS用于()。

A.初始URL集合
B.表示填充表单的数据源
C.本地页面URL集
D.待爬行URL集

78.正则表达式的规则中,()表示匹配所有非空白字符

A.\S
B.\d
C.\W
D.\w

79.是指发现并纠正数据文件中可识别的一些错误。

A.数据采集
B.数据清洗
C.数据分析
D.数据集成

80.HTTP请求中的()方法用于请求服务器回送收到的请求信息,主要用于测试或诊断。

A.GET
B.DELETE
C.PUT
D.TRACE

81.以下不能匹配正则表达式"^[\w]+$"的是()。

A.S+1
B.12
C.S_1
D.S1

82.以下不属于数据质量的规范、完整性要求的是

A.参照完整性未被破坏:数据不会找不到参照
B.不存在交叉系统匹配违规,数据被很好集成
C.数据在内部一致
D.遗留系统相关信息与其他模块要一致

83.,又称主题网络爬虫,是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫。

A.聚焦网络爬虫
B.增量式网络爬虫
C.通用网络爬虫
D.深层网络爬虫

84.在HTP响应信息中,若状态信息码是200则表示()。

A.请求成功
B.登录失败
C.所请求的页面已经转移至新的url
D.访问被禁止

85.HTTP请求中()头域的内容包含发出请求的用户信息。

A.Accept
B.Referer
C.User-Agent
D.Cookie

86.按照()爬取的网页内容根据目录层次深浅来爬行页面,处于较浅目录层次的页面首先被爬行,当同一层次中的页面爬行完毕后,爬虫再深入下一层继续爬行。

A.深度优先策略
B.广度优先策略
C.PageRank优先策略
D.随机爬行策略

87.网络数据采集一般是通过()或网站公开API等方式从网站上获取数据信息。

A.网络爬虫
B.网站日志
C.HTTP
D.表单

88.爬行过程中最重要部分就是表单填写及处理。

A.聚焦网络爬虫
B.增量式网络爬虫
C.通用网络爬虫
D.深层网络爬虫

89.以下属于HTTP协议的主要特点的是()。

A.HTTP只允许传输指定类型的数据对象
B.HTTP协议是无状态协议
C.HTTP1.1使用非持续连接
D.HTTP不支持安全认证

90.数据()的任务是过滤那些不符合要求的数据。

A.抽取
B.转换
C.加载
D.清洗

91.通过HTTP或者HTTPS协议请求的资源由()来标识。

A.HTML
B.URL
C.TCP
D.FTP

92.正则表达式中,[abc]表示()。

A.字符a,b或c
B.字符a
C.同时包含abd的字符串
D.字符串abc

93.以下哪个HTTP响应状态表示客户端错误()。

A.200
B.300
C.403
D.500

94.以下哪个HTTP响应状态表示服务器端错误

A.200
B.300
C.403
D.500

95.正则表达式[a-z]可以匹配()。

A.字母字符"a”或"z”
B.小写字母字符"a”或"z”
C."a”到"z”范围内的任意字母字符
D."a”到"z”范围内的任意小写字母字符

96.正则表达式的规则中,()表示数字,相当于[0-9]。

A.^
B.\d
C.\W
D.\w

97.DeepWeb爬虫体系结构中的LVS用于()。

A.待爬行URL集
B.表示填充表单的数据源
C.初始URL集合
D.本地页面URL集

98.以下哪个不属于HTTP请求信息()。

A.Expires
B.Accept-Language
C.User-Agent
D.Connection

99.HTTP响应中的()用于重定向一个新的位置。

A.Refresh
B.Connection
C.Location
D.WWW-Authenticate

100.关于HTTP请求方法中GET和POST的区别,以下说法不正确的是()。

A.POST方式提交数据,会带来安全问题
B.GET提交的数据大小有限制
C.GET提交的数据会放在URL之后,以?分割URL和传输数据,参数之间以&相连
D.POST方法是把提交的数据放在HTTP包的Body中

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值