1.DeepWeb爬虫体系结构包含六个基本功能模块和两个爬虫内部数据结构,其中()表示标签/数值集合,用来表示填充表单的数据源。
A.爬行控制器
B.URL列表
C.响应分析器
D.LVS表
2.HTTP响应中的Content-Type默认为text/plain。
3.大数据是信息技术领域的又一创新浪潮,改变着人们的生活与工作方式与企业的运作模式。
4.GET提交的数据大小有限制,最多只能有1024字节。
5.聚焦爬虫需要先对抓取目标的描述或定义。
6.字符串A和B都可以匹配正则表达式“A+”。
7.通过使用Web浏览器、网络爬虫或者其它的工具,客户端发起一个到服务器上指定端口的HTTP请求。我们称这个客户端叫()。
A.用户代理
B.播放器
C.源服务器
D.数据库
8.HTTP请求中的()头域的内容包含发出请求的用户信息。
A.Authorization
B.User-Agent
C.Referer
D.Cookie
9.数据的预处理ETL的E表示()。
A.转换
B.抽取
C.加载
D.清洗
10.数据的完备性指的是所有需要的数据是否都存在。
11.正则表达式支持匹配边界。例如,()匹配行首。。
A.\d
B.$
C.\w
D.^
12.字符串“aaaaa”可以匹配正则表达式“\w{3,5}”
13.字符串“aaa”可以匹配正则表达式“\w{3,}”。
14.网络爬虫顺着网页及其超链接组成的网爬行,每到一个网页就用抓取程序将这个网页抓下来,将内容抽取出来,同时抽取超链接,作为进一步爬行的线索。
15.以下关于深度优先的爬行策略的说法,正确的有()
A.处于较浅目录层次的页面都可以首先被爬行
B.爬虫在完成一个爬行分支后返回到上一链接节点进一步搜索其它链接,直到所有链接遍历完
C.比较适合垂直搜索或站内搜索
D.其基本方法是按照深度由低到高的顺序,依次访问下一级网页链接,直到不能再深入为止
16.深度优先的爬行策略按照深度逐层爬行页面,所有链接遍历完后,爬行任务结束。
17.聚焦网络爬虫需要对网页或数据的分析与过滤。
18.聚焦网络爬虫常用的爬行策略有深度优先策略、广度优先策略。
19.以下关于表层网页和深层网页的说法,正确的有()
A.表层网页是指传统搜索引擎可以索引的页面
B.深层网页是那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的网页
C.表层网页是以超链接可以到达的静态网页为主构成的Web页面
D.深层网页的数量比表层网页要少的多
20.正则表达式的规则中,x|y表示匹配()
A.xy
B.x+y
C.x或y
D.x和y
21.字符串Chapter1可满足正则表达式"Chapter[12345]”匹配要求。
22.以下能匹配正则表达式"^[A-Za-z]+$"的是()。
A.ab
B.33
C.a3
D.abc
23.不同的数据库之间如果不能建立数据库链接,则只能手工导出再处理。
24.增量式网络爬虫只会在需要的时候爬行新产生或发生更新的页面。
25.()描述了一种字符串匹配的模式,通常被用来检索、替换那些符合某个模式(规则)的文本。
A.网络爬虫
B.数据采集
C.字符集
D.正则表达式
26.HTTP响应中的()表示浏览器应该在多少秒之后刷新文档。
A.Refresh
B.Location
C.WWW-Authenticate
D.Connection
27.HTTP请求中的()方法用于请求服务器存储一个资源,并用Request-URI作为其标识。
A.GET
B.PUT
C.POST
D.TRACE
28.HTTP请求中的()方法用于请求服务器回送收到的请求信息,主要用于测试或诊断。
A.TRACE
B.PUT
C.TRACE
D.GET
29.增量式爬虫的主要目标有:()。
A.对以后的抓取过程给出反馈和指导
B.提高本地页面集中页面的质量
C.过滤与主题无关的链接
D.过滤与主题无关的链接
30.HTTP协议是无状态协议。
31.以下不属于数据清洗要处理的对象的是()。
A.重复的数据
B.规范的数据
C.不完整的数据
D.错误的数据
32.HTTP请求中的()方法要求被请求服务器接受附在请求后面的数据,常用于提交表单。
A.PUT
B.TRACE
C.GET
D.POST
33.以下对于爬行策略的说法,不正确的是()。
A.广度优先策略能够有效控制页面的爬行深度,避免遇到一个无穷深层分支时无法结束爬行的问题
B.深度优先策略比较适合垂直搜索或站内搜索,但爬行页面内容层次较深的站点时会造成资源的巨大浪费。
C.深度优先策略不足之处在于需较长时间才能爬行到目录层次较深的页面。
D.通用网络爬虫常用的爬行策略有:深度优先策略、广度优先策略
34.数据清洗是指发现并纠正数据文件中可识别的错误,包括检查数据一致性,处理无效值和缺失值等技术。
35.在HTP响应信息中,若状态信息码是200则表示()。
A.所请求的页面已经转移至新的url
B.访问被禁止
C.登录失败
D.请求成功
36.正则表达式中的量词可以匹配一个表达式多次出现,()表示1次或多次。
A.?
B.*
C.^
D.+
37.正则表达式中有一些预定义的字符分类,其中,()表示任意单词字符。。
A.\d
B.\w
C.$
D.\s
38.在HTP响应信息中,若状态信息码是200则表示()。
A.登录失败
B.所请求的页面已经转移至新的url
C.访问被禁止
D.请求成功
39.增量式爬虫在需要的时候爬行新产生或发生更新的页面,并重新下载所有页面。
40.()描述了一种字符串匹配的模式,通常被用来检索、替换那些符合某个模式(规则)的文本。
A.网络爬虫
B.数据采集
C.正则表达式
D.字符集
41.增量式爬虫的主要目标有:()。
A.提高本地页面集中页面的质量
B.过滤与主题无关的链接
C.对以后的抓取过程给出反馈和指导
D.过滤与主题无关的链接
42.以下关于网络爬虫的说法,正确的有()。
A.网络爬虫不需要遵守任何限制
B.可以自动采集所有其能够访问到的页面内容
C.实际上是一种"自动化浏览网络”的程序
D.被广泛用于互联网搜索引擎或其他类似网站,以获取或更新这些网站的内容和检索方式
43.一般来说使用数据抽取和转换都用手工的方式完成。
44.正则表达式[^A-Za-z_0-9]等价于()。
A.\d
B.\w
C.\W
D.^
45.数据的预处理ETL的T表示()。
A.抽取
B.加载
C.转换
D.清洗
46.以下不能匹配正则表达式"^[\w]+$"的是()。
A.12
B.S_1
C.S+1
D.S1
47.正则表达式中\d表示任意单词字符。
48.HTTP响应中的Last-Modified用于指示资源的最后修改日期和时间。
49.深层网页(DeepWeb)的内容课通过静态链接获取。
50.以下关于正则表达式中数量表示规则的说法,不正确的是()
A.X*表示可以出现0次,1次或多次
B.X+表示可以出现1次或多次
C.X表示必须出现一次
D.X+表示可以出现0次,1次或多次
51.正则表达式中,()表示匹配反斜线。
A.\
B.^
C.\
D.\w
52.()又称全网爬虫,爬行对象从一些种子URL扩充到整个Web,主要为门户站点搜索引擎和大型Web服务提供商采集数据。
A.聚焦网络爬虫
B.通用网络爬虫
C.深层网络爬虫
D.增量式网络爬虫
53.HTTP请求的()方法是在Request-URI所标识的资源后附加新的数据。
A.GET
B.PUT
C.POST
D.TRACE
54.数据的()指的是数据是否易于获取、易于理解和易于使用。
A.李清照
B.关汉卿
C.苏轼
D.完备性
55.聚焦网络爬虫和通用网络爬虫相比,增加了链接评价模块以及内容评价模块。
56.()实现的两个主要目标为保持本地页面集中存储的页面为最新页面和提高本地页面集中页面的质量。
A.深层网络爬虫
B.聚焦网络爬虫
C.通用网络爬虫
D.增量式网络爬虫
57.网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型()
A.深层网络爬虫
B.增量式网络爬虫
C.聚焦网络爬虫
D.通用网络爬虫
58.字符串“a123456”可以匹配正则表达式“\w{6}”。
59.发送了一个HTTP请求后,客户端收到一个200的响应,这表示()。
A.拒绝访问
B.登录失败
C.重定向到其他URL
D.请求成功
60.正则表达式中有一些预定义的字符分类,其中,()表示任意空白字符。
A.\w
B.\d
C.$
D.\s
61.字符串“aa”可以匹配正则表达式“\w{3,}”。
62.以下不属于HTTP协议请求方法的是()
A.POST
B.GET
C.TRACE
D.SUBMIT
63.DeepWeb爬虫爬行过程中最重要部分就是链接提取。
64.如果要采集指定的数据,则需要使用到(),因为它只需要爬行与主题相关的页面,极大地节省了硬件和网络资源,保存的页面也由于数量少而更新快。
A.通用网络爬虫
B.聚焦网络爬虫
C.增量式网络爬虫
D.深层网络爬虫
65.HTTP请求的()能使客户端到服务器端的连接持续有效,当出现对服务器的后继请求时,避免了建立或者重新建立连接。
A.Host
B.Cookie
C.Keep-Alive
D.Referer
66.Web服务器不保存发送请求的Web浏览器进程的任何信息。
67.字符串“aaaaaa”可以匹配正则表达式“\w{6}”。
68.正则表达式支持匹配边界。例如()匹配行尾。
A.^
B.\w
C.\d
D.$
69.网络爬虫抓取各种资源后,通过相应的索引技术组织这些信息,提供给用户进行查询。
70.HTTP响应中Accept-Ranges的表示服务器支持哪些请求方法。
71.数据的预处理ETL的T表示()。
A.加载
B.清洗
C.转换
D.抽取
72.正则表达式的规则中,()表示匹配所有非空白字符。
A.\W
B.\S
C.\d
D.\w
73.HTTP请求头中()域的内容包含发出请求的用户信息,例如使用的客户端名称和版本号等。
A.Cookie
B.User-Agent
C.Host
D.Referer
74.正则表达式中的量词可以匹配一个表达式多次出现,()表示1次或多次。
A.*
B.+
C.?
D.^
75.Web页面按存在方式可以分为()
A.通用网页
B.深层网页
C.表层网页
D.主题网页
76.对于不完整的数据,例如一些应该有的信息缺失,如信息缺失、主表与明细表不能匹配等,应进行数据()。
A.加载
B.转换
C.抽取
D.清洗
77.数据的完整性指的是数据之间的参照完整性是否存在或一致。
78.深层网络(DeepWeb)爬虫爬行过程中最重要部分就是()。
A.主题定义
B.内容评价
C.链接评价
D.表单填写
79.以下不属于HTTP协议的主要特点的是()。
A.有状态
B.简单快速
C.支持基本认证和安全认证
D.支持客户/服务器模式
80.正则表达式[a-z]可以匹配()。
A."a”到"z”范围内的任意小写字母字符
B."a”到"z”范围内的任意字母字符
C.小写字母字符"a”或"z”
D.字母字符"a”或"z”
81.DeepWeb爬虫的LVS表是()。
A.是一个URL列表
B.一种内部数据结构
C.即LabelValueSet,标签/数值集合
D.用来表示填充表单的数据源
82.深层网络爬虫的基于网页结构分析的表单填写法一般将网页表单表示成(),从中提取表单各字段值。
A.DOM树
B.图像
C.文本
D.BOM树
83.DeepWeb爬虫填写表单时可以基于领域知识,也可以基于网页结构分析。
84.GET和POST的区别,以下说法不正确的有()。
A.GET方式需要使用Reques
B.QueryString来取得变量的值
C.POST提交的数据会放在URL之后完
D.GET提交的数据会放在URL之后
E.POST方式通过Reques
F.Form来获取变量的值
85.HTTP请求中的()方法要求被请求服务器接受附在请求后面的数据,常用于提交表单。
A.PUT
B.GET
C.POST
D.TRACE
86.HTTP响应中Content-Type表示响应的对象的类型和字符集。
87.网络爬虫被广泛用于互联网搜索引擎或其他类似网站,以获取或更新这些网站的内容和检索方式。
88.HTTP请求的()方法是在Request-URI所标识的资源后附加新的数据。
A.TRACE
B.PUT
C.POST
D.GET
89.HTTP请求中()头域的内容包含发出请求的用户信息。
A.User-Agent
B.Cookie
C.Referer
D.Accept
90.正则表达式中有一些预定义的字符分类,其中,()表示任意空白字符。
A.$
B.\w
C.\s
D.\d
91.正则表达式支持匹配边界。例如()匹配行尾。
A.\d
B.$
C.\w
D.^
92.HTTP响应中的Content-Type不能指定为其他值。
93.对于重要信息的完整历史变更记录,在抽取时可以根据各时期的历史信息,在抽取需要信息等基本属性的旧有数据时,要与相应时段的信息关联得到真实的历史属性。
94.对于重要信息的完整历史变更记录,在抽取时也不需要与相应时段的历史信息关联。
95.以下不属于数据质量的规范、完整性要求的是()
A.遗留系统相关信息与其他模块要一致
B.不存在交叉系统匹配违规,数据被很好集成
C.参照完整性未被破坏:数据不会找不到参照
D.数据在内部一致
96.HTTP请求中的Cookie表示客户端类型。
97.数据的预处理ETL的T表示()。
A.加载
B.转换
C.清洗
D.抽取
98.增量式网络爬虫能够在一定程度上保证所爬行的页面是尽可能新的页面。
99.HTTP请求中的()方法用于请求服务器删除Request-URI所标识的资源。
A.TRACE
B.PUT
C.DELETE
D.GET
100.深度优先的爬行策略按照网页内容目录层次深浅来爬行页面,当同一层次中的页面爬行完毕后,再深入下一层继续爬行。