1.正则表达式[a-z]可以匹配()。
A.字母字符"a”或"z”
B.小写字母字符"a”或"z”
C."a”到"z”范围内的任意字母字符
D."a”到"z”范围内的任意小写字母字符
2.正则表达式中有一些预定义的字符分类,其中,()表示任意单词字符。。
A.\w
B.$
C.\d
D.\s
3.以下关于正则表达式中数量表示规则的说法,不正确的是()
A.X表示必须出现一次
B.X+表示可以出现0次,1次或多次
C.X+表示可以出现1次或多次
D.X*表示可以出现0次,1次或多次
4.进行数据预处理时,使用ETL工具比手工处理更高效。
5.()是指发现并纠正数据文件中可识别的一些错误。
A.数据清洗
B.数据集成
C.数据采集
D.数据分析
6.正则表达式[John]可以匹配John。
7.HTTP响应中的Last-Modified也可用setDateHeader方法来设置。
8.字符串“aaaaaa”可以匹配正则表达式“\w{3,5}”。
9.POST方法可以在Request-URI所标识的资源后附加新的数据。
10.正则表达式的规则中,x|y表示匹配()
A.xy
B.x和y
C.x或y
D.x+y
11.以下关于正则表达式中数量表示规则的说法,不正确的是()
A.X+表示可以出现0次,1次或多次
B.X*表示可以出现0次,1次或多次
C.X+表示可以出现1次或多次
D.X表示必须出现一次
12.DeepWeb爬虫基于领域知识填写表单时,一般无领域知识或仅有有限的领域知识。
13.GET和POST的区别,以下说法正确的有()。
A.GET方式需要使用Reques
B.QueryString来取得变量的值
C.POST提交的数据会放在URL之后
D.POST方式通过Reques
E.Form来获取变量的值
F.GET提交的数据会放在URL之后
14.HTTP响应中的()表示WEB服务器告诉浏览器自己响应的对象的类型和字符集。
A.Content-Length
B.Content-Encoding
C.Content-Range
D.Content-Type
15.HTTP请求中()头域的内容包含发出请求的用户信息。
A.User-Agent
B.Accept
C.Referer
D.Cookie
16.HTTP请求中的User-Agent表示发起请求的客户端类型。
17.数据预处理时可能要先验证数据正确性。
18.增量式爬虫中的()指的是:爬虫根据网页改变频率将其分为更新较快网页子集和更新较慢网页子集两类,然后以不同的频率访问这两类网页。
A.基于分类的更新法
B.统一更新法
C.随机更新法
D.个体更新法
19.以下字符串能匹配正则表达式"^[a-z][0-9]$”的是()
A.1
B.a
C.ab
D.a1
20.HTTP请求中的User-Agent表示发起请求的类型。
21.()只会在需要的时候爬行新产生或发生更新的页面,并不重新下载没有发生变化的页面,可有效减少数据下载量,及时更新已爬行的网页,减小时间和空间上的耗费,但是增加了爬行算法的复杂度和实现难度。
A.通用网络爬虫
B.增量式网络爬虫
C.深层网络爬虫
D.聚焦网络爬虫
22.业务系统一般存储非常明细的数据,因此一般情况下,会将业务系统数据按照数据仓库粒度进行聚合。
23.数据刷新的时间间隔越短越好。
24.HTTP请求的Keep-Alive对服务器没有负面影响。
25.正则表达式的量词+表示0次或多次。
26.HTTP请求方法常用的有GET、HEAD、POST。
27.HTTP请求中的Keep-Alive功能使客户端到服务器端的连接持续有效。
28.正则表达式支持匹配边界。例如()匹配行尾。
A.^
B.$
C.\w
D.\d
29.正则表达式的规则中,()表示数字,相当于[0-9]。
A.\d
B.\w
C.^
D.\W
30.网络爬虫可以爬取的资源有()
A.视频
B.图像
C.Web网页
D.音频
31.通用网络爬虫的结构大致包括以下组成部分:()。
A.链接过滤模块
B.URL队列
C.页面爬行模块
D.页面分析模块
32.一次HTTP由()组成。
A.一次请求和一次响应
B.一次请求
C.一次响应
D.2次请求
33.网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型()
A.增量式网络爬虫
B.通用网络爬虫
C.聚焦网络爬虫
D.深层网络爬虫
34.HTTP请求中的()头域的内容包含发出请求的用户信息。
A.Referer
B.Cookie
C.Authorization
D.User-Agent
35.HTTP请求头中()域的内容包含发出请求的用户信息,例如使用的客户端名称和版本号等。
A.User-Agent
B.Host
C.Referer
D.Cookie
36.网络爬虫不需要遵守任何限制。
37.为保持本地页面集中存储的页面为最新页面,增量式爬虫常用的方法有:()。
A.基于分类的更新法
B.统一更新法
C.个体更新法
D.基于主题的更新法
38.以下不属于HTTP协议请求方法的是()
A.TRACE
B.GET
C.POST
D.SUBMIT
39.GET和POST的区别,以下说法不正确的有()。
A.GET方式需要使用Reques
B.QueryString来取得变量的值
C.POST方式通过Reques
D.Form来获取变量的值
E.GET提交的数据会放在URL之后
F.POST提交的数据会放在URL之后完
40.数据转换不包括()。
A.不一致数据转换
B.不完整的数据
C.商务规则的计算
D.数据粒度的转换
41.数据质量的()表示所有需要的数据是否都存在。
A.完整性
B.完备性
C.正确性
D.一致性
42.可以通过POST方法请求查询服务器的性能,或者查询与资源相关的选项和需求。