1.()采集的目标是那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的,只有用户提交一些关键词才能获得的Web页面。
A.聚焦网络爬虫
B.增量式网络爬虫
C.通用网络爬虫
D.深层网络爬虫
2.HTTP请求的()方法是在Request-URI所标识的资源后附加新的数据。
A.GET
B.POST
C.PUT
D.TRACE
3.在HTTP请求中,通过()方法发送的数据,会放在URL之后,以?分割URL和传输数据,参数之间以&相连。
A.GET
B.POST
C.PUT
D.TRACE
4.正则表达式的规则中,()表示匹配所有非空白字符
A.\S
B.\d
C.\W
D.\w
5.正则表达式中,()匹配除了换行符之外的任意字符。
A.^
B.\d
C..
D.\w
6.以下关于正则表达式中数量表示规则的说法,不正确的是()
A.X+表示可以出现0次,1次或多次
B.X表示必须出现一次
C.X*表示可以出现0次,1次或多次
D.X+表示可以出现1次或多次
7.影响质量问题的原因不包括()。
A.数据的时间差异性问题
B.数据的获取方式多样性问题
C.数据的不稳定性问题
D.数据的依赖性问题
8.HTTP响应中的()等分别用于指定消息发送和文档过期的时间。
A.Date,Expires
B.Date,Allow
C.Last-Modified,Allow
D.Last-Modified,Expires
9.深层网络爬虫的基于网页结构分析的表单填写法一般将网页表单表示成(),从中提取表单各字段值。
A.DOM树
B.BOM树
C.图像
D.文本
10.数据转换不包括()。
A.不一致数据转换
B.数据粒度的转换
C.商务规则的计算
D.不完整的数据
11.网络数据采集一般是通过()或网站公开API等方式从网站上获取数据信息。
A.网络爬虫
B.网站日志
C.HTTP
D.表单
12.数据的()指的是数据是否易于获取、易于理解和易于使用。
A.完备性
B.苏轼
C.关汉卿
D.李清照
13.()爬行过程中最重要部分就是表单填写及处理。
A.聚焦网络爬虫
B.增量式网络爬虫
C.通用网络爬虫
D.深层网络爬虫
14.按照()爬取的网页内容根据目录层次深浅来爬行页面,处于较浅目录层次的页面首先被爬行,当同一层次中的页面爬行完毕后,爬虫再深入下一层继续爬行。
A.深度优先策略
B.广度优先策略
C.PageRank优先策略
D.随机爬行策略
15.数据的预处理ETL的L表示()。
A.抽取
B.转换
C.加载
D.清洗
16.、HTTP中()方法可用于请求查询服务器的性能,或者查询与资源相关的选项和需求。
A.OPTIONS
B.DELETE
C.PUT
D.TRACE
17.一次HTTP由()组成。
A.一次请求
B.一次响应
C.一次请求和一次响应
D.2次请求
18.正则表达式支持匹配边界。例如,()匹配行首。。
A.^
B.\d
C.\w
D.$
19.()实现的两个主要目标为保持本地页面集中存储的页面为最新页面和提高本地页面集中页面的质量。
A.聚焦网络爬虫
B.增量式网络爬虫
C.通用网络爬虫
D.深层网络爬虫
20.()的搜索策略是指按照深度由低到高的顺序,依次访问下一级网页链接,直到不能再深入为止,比较适合垂直搜索或站内搜索。
A.广度优先
B.深度优先
C.基于目标特征
D.基于领域
21.数据()的任务是过滤那些不符合要求的数据。
A.抽取
B.转换
C.加载
D.清洗
22.关于表层网页及深层网页,以下说法不正确的是()。
A.表层网页是指传统搜索引擎可以索引的页面,以超链接可以到达的静态网页为主构成的Web页面。
B.深层网页是那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的,只有用户提交一些关键词才能获得的Web页面。
C.深层网页中包含的信息远远少于表层网页。
D.深层网页爬虫主要用于爬去因此在搜索表单后的深层网页。
23.对发出的HTTP请求应答的服务器上存储着一些资源,比如HTML文件和图像。我们称这个应答服务器为()。
A.浏览器
B.播放器
C.用户代理
D.源服务器
24.数据的预处理ETL的E表示()。
A.抽取
B.转换
C.加载
D.清洗
25.HTTP请求头中()域的内容包含发出请求的用户信息,例如使用的客户端名称和版本号等。
A.Host
B.User-Agent
C.Cookie
D.Referer
26.()描述了一种字符串匹配的模式,通常被用来检索、替换那些符合某个模式(规则)的文本。
A.网络爬虫
B.数据采集
C.字符集
D.正则表达式
27.GET和POST的区别,以下说法不正确的有()。
A.GET提交的数据会放在URL之后
B.POST提交的数据会放在URL之后完
C.GET方式需要使用Request.QueryString来取得变量的值
D.POST方式通过Request.Form来获取变量的值
28.通过HTTP或者HTTPS协议请求的资源由()来标识。
A.HTML
B.URL
C.TCP
D.FTP
29.在HTTP响应信息中,若状态信息码是404则表示()。
A.没有找到请求的页面
B.登录失败
C.所请求的页面已经转移至新的url
D.访问被禁止
30.以下哪个属于HTTP请求信息()。
A.User-Agent
B.Content-Length
C.Accept-Ranges
D.Expires
31.以下不属于HTTP协议请求方法的是()
A.GET
B.POST
C.TRACE
D.SUBMIT
32.数据清洗是一个一次性的过程。(1分)
33.数据质量的时效性指数据是否在企业定义的可接受的范围之内。(1分)
34.深度优先策略不足之处在于需较长时间才能爬行到目录层次较深的页面。(1分)
35.HTTP请求的TRACE方法请求服务器回送收到的请求信息,主要用于测试或诊断。(1分)
36.HTTP响应中Content-Type用于指明响应的对象所用的自然语言。(1分)
37.HTTP请求的PUT方法请求服务器存储一个资源,并用Request-URI作为其标识。(1分)
38.表层网页是那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的网页。(1分)
39.网络爬虫总是要从某个起点开始爬,这个起点叫做种子。(1分)
40.正则表达式中的饥饿模式匹配尽可能多的文本。(1分)
41.网络爬虫技术不支持图片、音频、视频等文件或附件的采集。(1分)
42.正则表达式的量词+表示0次或多次。(1分)
43.聚焦爬虫根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。(1分)
44.正则表达式中\d表示任意单词字符。(1分)
45.表层网页是指传统搜索引擎可以索引的页面。(1分)
46.网络爬虫的广泛应用可能造成个人隐私泄露。(1分)
47.HTTP状态码500表示由于客户端原因造成的请求失败。(1分)
48.正则表达式中的饥饿模式匹配尽可能少的文本。(1分)
49.网络爬虫被广泛用于互联网搜索引擎或其他类似网站,以获取或更新这些网站的内容和检索方式。(1分)
50.通用网络爬虫对于爬行速度和存储空间要求较高。(1分)
51.HTTP请求中的Range头域可以请求实体的一个或者多个子范围。(1分)
52.正则表达式[abc]表示字符串abc。(1分)
53.HTTP请求中的Keep-Alive功能使客户端到服务器端的连接持续有效。(1分)
54.正则表达式无法实现特殊字符的匹配。(1分)
55.正则表达式中,量词可以匹配一个表达式多次出现。(1分)
56.网络爬虫顺着网页及其超链接组成的网爬行,每到一个网页就用抓取程序将这个网页抓下来,将内容抽取出来,同时抽取超链接,作为进一步爬行的线索。(1分)
57.广度优先策略不能避免遇到一个无穷深层分支时无法结束爬行的问题。(1分)
58.Java、Python等语言也支持正则表达式。(1分)
59.表层网页是以超链接可以到达的静态网页为主构成的Web页面。(1分)
60.对于数据量大的系统,一般也常做一次性的数据抽取。(1分)
61.HTTP请求中的Cookie表示客户端类型。(1分)
62.正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。(1分)
63.数据转换的主要进行不一致的数据转换、数据粒度的转换,以及一些商务规则的计算。(1分)
64.HTTP请求的DELETE方法请求服务器删除Request-URI所标识的资源。(1分)
65.表层网页(SurfaceWeb)是互联网上最大、发展最快的新型信息资源。(1分)
66.目前主流的网页开发语言都不支持正则表达式。。(1分)
67.正则表达式[abc]表示字符a或b或c。(1分)
68.网络爬虫可以自动采集所有其能够访问到的页面内容。(1分)
69.GET请求获取Request-URI所标识的资源。(1分)
70.HTTP请求的TRACE方法请求查询服务器的性能,或者查询与资源相关的选项和需求。(1分)
71.正则表达式由一些普通字符和一些元字符组成。(1分)
72.数据质量的正确性(Accuracy)指数据是否正确的表示了现实或可证实的来源。(1分)
73.数据转换时,对于空值的处理,可通过加载或替换为其他含义数据,并根据字段空值实现分流加载到不同目标库。(1分)
74.HTTP请求的PUT方法请求服务器删除Request-URI所标识的资源。(1分)
75.HTTP响应中Content-Type表示响应的对象的类型和字符集。(1分)
76.HTTP请求的Keep-Alive对服务器没有负面影响。(1分)
77.HTTP状态码200表示请求成功。(1分)
78.HTTP状态码500表示由于服务器原因造成的请求失败。(1分)
79.通用网络爬虫通常采用并行工作方式,但需要较长时间才能刷新一次页面。(1分)
80.正则表达式中的贪婪模式匹配尽可能少的文本。(1分)
81.HTTP的请求头域可能包含Authorization、Referer、Content-Type、Content-Encoding等部分。(1分)
82.随着网络的迅速发展,不断优化的网络爬虫技术正在有效地应对各种挑战,为高效搜索用户关注的特定领域与主题提供了有力支撑。(1分)
83.HTTP请求中Referer头域的内容包含发出请求的用户信息。(1分)
84.聚焦网络爬虫爬行页面的顺序要求相对较低。(1分)
85.广度优先策略按照网页内容目录层次深浅来爬行页面,处于较浅目录层次的页面首先被爬行。(1分)
86.业务系统一般存储非常明细的数据,因此一般情况下,会将业务系统数据按照数据仓库粒度进行聚合。(1分)
87.正则表达式中使用一对方括号[]表示字符分类。(1分)
88.DeepWeb爬虫爬行过程中最重要部分就是链接提取。(1分)
89.深度优先策略比较适合垂直搜索或站内搜索。(1分)
90.深层网页中存储的信息量只占互联网中信息量的极少部分。(1分)
91.小的网站将没有爬虫访问。(1分)
92.数据质量具体表现为正确性、完整性、一致性、完备性、有效性、时效性和可获取性等。(1分)
93.爬虫工具只能用Java语言编写。(1分)
94.正则表达式支持匹配边界,例如单词边界,文本的开头或末尾。(1分)
95.HTTP请求的POST方法请求服务器存储一个资源,并用Request-URI作为其标识。(1分)
96.HTTP协议是无状态协议。(1分)
97.增量式网络爬虫只会在需要的时候爬行新产生或发生更新的页面。(1分)
98.网络爬虫除了可以采集信息,甚至可以植入流氓软件,破坏网页内容甚至劫持网站和服务器。(1分)
99.在HTTP响应信息中状态信息码是一个重要的信息。(1分)
100.网络爬虫抓取各种资源后,通过相应的索引技术组织这些信息,提供给用户进行查询。(1分)