数据采集与管理【7】

星绘搜题

于 2022-02-16 10:05:52 发布

阅读量728

点赞数

本文链接：https://blog.csdn.net/robin9409/article/details/122957476

版权

1.正则表达式的量词?表示0次或多次。（1分）

2.DELETE请求服务器删除Request-URI所标识的资源。（1分）

3.网络数据采集不能处理非结构化数据。（1分）

4.通用网络爬虫适用于为搜索引擎搜索广泛的主题，有较强的应用价值。（1分）

5.HTTP请求的GET方法请求获取由Request-URI所标识的资源的响应消息报头。（1分）

6.市场上的大部分Web服务器，都不支持HTTPKeep-Alive。（1分）

7.深层网页中包含的信息远远少于表层网页，没什么爬取价值。（1分）

8.正则表达式的量词*表示0次或多次。（1分）

9.深度优先策略的基本方法是按照深度由低到高的顺序，依次访问下一级网页链接。（1分）

10.Web服务器不保存发送请求的Web浏览器进程的任何信息。（1分）

11.网络爬虫实际上是一种"自动化浏览网络”的程序，或者说是一种网络机器人，被广泛用于互联网搜索引擎或其他类似网站，以获取或更新这些网站的内容和检索方式。（1分）

12.正则表达式中$匹配行首。（1分）

13.网络数据采集是指通过网络爬虫或网站公开API等方式从网站上获取数据信息。（1分）

14.HTTP请求的PUT方法请求服务器回送收到的请求信息，主要用于测试或诊断。（1分）

15.聚焦网络爬虫又称主题网络爬虫。（1分）

16.聚焦网络爬虫常用的爬行策略有深度优先策略、广度优先策略。（1分）

17.HTTP的请求头域可能包含Accept、Accept-Charset、Accept-Encoding、Accept-Language等字段。（1分）

18.深层网页的数量比表层网页要少的多。（1分）

19.聚焦网络爬虫对于爬行速度和存储空间要求更高。（1分）

20.增量式网络爬虫数据下载量和时间及空间上的耗费都较大。（1分）

21.实际的网络爬虫系统通常是几种爬虫技术相结合实现的。（1分）

22.POST方式提交表单数据，会带来安全问题。（1分）

23.深度优先策略比较适合垂直搜索或站内搜索，但爬行页面内容层次较深的站点时会造成资源的巨大浪费。（1分）

24.HTTP请求中的Keep-Alive功能避免了建立或者重新建立连接。（1分）

25.字符串Chapter12345可满足正则表达式"Chapter[12345]”匹配要求。（1分）

26.GET提交的数据大小有限制，最多只能有1024字节。（1分）

27.正则表达式的量词?表示0次或1次。（1分）

28.POST提交的数据大小有限制，最多只能有1024字节。（1分）

29.深层网络爬虫的LVS表是一个URL列表。（1分）

30.Java语言不支持正则表达式。。（1分）

31.网络爬虫实际上是一种"自动化浏览网络”的程序。（1分）

32.可以从一个HTTP请求中了解到一些信息，例如：发出请求的客户端，请求的语言，是否保持连接（keep-alive），等等。（1分）

33.字符串Chapter1可满足正则表达式"Chapter[12345]”匹配要求。（1分）

34.正则表达式中的贪婪模式匹配尽可能多的文本。（1分）

35.聚焦网络爬虫数量非常多，页面更新慢。（1分）

36.HTTP请求的OPTIONS方法请求查询服务器的性能，或者查询与资源相关的选项和需求。（1分）

37.HTTP的响应包括Content-Encoding、Content-Length、Content-Type等。（1分）

38.大数据的主要难点在于数据量太大。（1分）

39.网络爬虫不需要遵守任何限制。（1分）

40.不同的企业有不同的业务规则、不同的数据指标，这些指标通过简单的加减、组合就能完成。（1分）

41.增量式爬虫在需要的时候爬行新产生或发生更新的页面，并重新下载所有页面。（1分）

42.目前超过一半的网页浏览量都由实际的用户贡献。（1分）

43.超文本传输协议通常由HTTP客户端发起一个请求，建立一个到服务器指定端口的TCP连接。（1分）

44.HTTP请求方法GET用于请求服务器回送收到的请求信息。（1分）

45.目前互联网上的信息分类大多数都是人工完成的。（1分）

46.表层网页（SurfaceWeb）中可访问信息容量是深层网页（DeepWeb）的几百倍。（1分）

47.正则表达式中\w表示任意数字字符。（1分）

48.POST提交的数据会放在URL之后。（1分）

49.HTTP请求的HEAD方法请求获取由Request-URI所标识的资源的响应消息报头。（1分）

50.HTTP请求由三部分组成，分别是：请求行、消息报头、请求正文。（1分）

51.深层网页（DeepWeb）的内容课通过静态链接获取。（1分）

52.HTTP请求方法常用的有GET、HEAD、POST。（1分）

53.广度优先策略能够有效控制页面的爬行深度，避免遇到一个无穷深层分支时无法结束爬行的问题。（1分）

54.聚焦网络爬虫和通用网络爬虫相比，增加了链接评价模块以及内容评价模块。（1分）

55.大数据是信息技术领域的又一创新浪潮，改变着人们的生活与工作方式与企业的运作模式。（1分）

56.HTTP请求中的Range头域内容包含发出请求的用户信息。（1分）

57.HTTP状态码400表示请求成功。。（1分）

58.爬虫只能爬取文字资源。（1分）

59.HTTP请求方法中的DELETE用于请求服务器删除Request-URI所标识的资源。（1分）

60.HtmlParser是一个Java编写的html解析的库。（1分）

61.增量式爬虫不需要评价网页内容的重要性。（1分）

62.通用网络爬虫对于爬行速度和存储空间要求较低。（1分）

63.正则表达式中$匹配行尾。（1分）

64.聚焦爬虫只需要爬行与主题相关的页面。。（1分）

65.在HTTP响应信息中，若状态信息码是404则表示（）。（2分）

A.没有找到请求的页面
B.登录失败
C.所请求的页面已经转移至新的url
D.访问被禁止

66.正则表达式中，[abc]表示（）。（2分）

A.字符a,b或c
B.字符a
C.同时包含abd的字符串
D.字符串abc

67.HTTP响应中的（）表示浏览器应该在多少秒之后刷新文档。（2分）

A.Connection
B.Refresh
C.Location
D.WWW-Authenticate

68.正则表达式中$匹配行首。（1分）

A.正确
B.错误

69.HTTP响应中的（）等分别用于指定消息发送和文档过期的时间。（2分）

A.Date，Expires
B.Date，Allow
C.Last-Modified，Allow
D.Last-Modified，Expires

70.HTTP请求的响应状态码为403表示（）。（2分）

A.请求成功
B.对被请求页面的访问被禁止
C.服务器忙
D.服务器连接超时

71.数据质量具体表现为正确性、完整性、一致性、完备性、有效性、时效性和可获取性等。（1分）

A.正确
B.错误

72.DeepWeb爬虫体系结构中的LVS用于（）。（2分）

A.初始URL集合
B.表示填充表单的数据源
C.本地页面URL集
D.待爬行URL集

73.以下关于HTTP请求方法GET的说法，正确的是（）。（2分）

A.请求服务器删除Request-URI所标识的资源
B.请求获取Request-URI所标识的资源
C.请求服务器回送收到的请求信息
D.请求查询服务器的性能

74.网络数据采集是指通过网络爬虫或网站公开API等方式从网站上获取数据信息。（1分）

A.正确
B.错误

75.广度优先策略不能避免遇到一个无穷深层分支时无法结束爬行的问题。（1分）

A.正确
B.错误

76.正则表达式中有一些预定义的字符分类，其中,（）表示任意空白字符。（2分）

A.\s
B.\d
C.\w
D.$

77.HTTP响应中的（）指明实体正文的长度，以字节方式存储的十进制数字来表示。（2分）

A.Content-Language
B.Content-Encoding
C.Content-Range
D.Content-Length

78.（）是指发现并纠正数据文件中可识别的一些错误。（2分）

A.数据采集
B.数据清洗
C.数据分析
D.数据集成

79.随着网络的迅速发展，不断优化的网络爬虫技术正在有效地应对各种挑战，为高效搜索用户关注的特定领域与主题提供了有力支撑。（1分）

A.正确
B.错误

80.HTTP状态码500表示由于服务器原因造成的请求失败。（1分）

A.正确
B.错误

81.正则表达式中有一些预定义的字符分类，其中,（）表示任意数字。。（2分）

A.\s
B.\d
C.\w
D.$

82.爬虫工具只能用Java语言编写。（1分）

A.正确
B.错误

83.HTTP的请求头域可能包含Authorization、Referer、Content-Type、Content-Encoding等部分。（2分）

A.正确
B.错误

84.聚焦爬虫根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。（1分）

A.正确
B.错误

85.如果要采集指定的数据，则需要使用到（），因为它只需要爬行与主题相关的页面，极大地节省了硬件和网络资源，保存的页面也由于数量少而更新快。（2分）

A.聚焦网络爬虫
B.增量式网络爬虫
C.通用网络爬虫
D.深层网络爬虫

86.正则表达式的规则中，（）表示数字，相当于[0-9]。（2分）

A.^
B.\d
C.\W
D.\w

87.聚焦网络爬虫又称主题网络爬虫。（1分）

A.正确
B.错误

88.不同的企业有不同的业务规则、不同的数据指标，这些指标通过简单的加减、组合就能完成。（1分）

A.正确
B.错误

89.大数据的主要难点在于数据量太大。（2分）

A.正确
B.错误

90.聚焦网络爬虫对于爬行速度和存储空间要求更高。（2分）

A.正确
B.错误

91.广度优先策略按照网页内容目录层次深浅来爬行页面，处于较浅目录层次的页面首先被爬行。（1分）

A.正确
B.错误

92.如果HTTP请求的响应信息是404，则应采取下列哪项措施（）。（2分）

A.向网管报障
B.再次核对请求的页面地址是否正确
C.向管理员请求用户名和密码
D.检查浏览器权限

93.正则表达式中使用一对方括号[]表示字符分类。（2分）

A.正确
B.错误

94.网络爬虫除了可以采集信息，甚至可以植入流氓软件，破坏网页内容甚至劫持网站和服务器。（2分）

A.正确
B.错误

95.表层网页（SurfaceWeb）中可访问信息容量是深层网页（DeepWeb）的几百倍。（1分）

A.正确
B.错误

96.正则表达式支持匹配边界。例如，()匹配行首。。（2分）

A.^
B.\d
C.\w
D.$

97.正则表达式中$匹配行首。（2分）

A.正确
B.错误

98.GET和POST的区别，以下说法不正确的有（）。（2分）

A.GET提交的数据会放在URL之后
B.POST提交的数据会放在URL之后完
C.GET方式需要使用Request.QueryString来取得变量的值
D.POST方式通过Request.Form来获取变量的值

99.网络爬虫实际上是一种"自动化浏览网络”的程序，或者说是一种网络机器人，被广泛用于互联网搜索引擎或其他类似网站，以获取或更新这些网站的内容和检索方式。（2分）

A.正确
B.错误

100.关于HTTP请求方法中GET和POST的区别，以下说法不正确的是（）。（2分）

A.GET提交的数据会放在URL之后，以?分割URL和传输数据，参数之间以&相连
B.POST方法是把提交的数据放在HTTP包的Body中
C.GET提交的数据大小有限制
D.POST方式提交数据，会带来安全问题

星绘搜题

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据采集与管理【7】

1.正则表达式的量词?表示0次或多次。（1分）2.DELETE请求服务器删除Request-URI所标识的资源。（1分）3.网络数据采集不能处理非结构化数据。（1分）4.通用网络爬虫适用于为搜索引擎搜索广泛的主题，有较强的应用价值。（1分）5.HTTP请求的GET方法请求获取由Request-URI所标识的资源的响应消息报头。（1分）6.市场上的大部分Web服务器，都不支持HTTPKeep-Alive。（1分）7.深层网页中包含的信息远远少于表层网页，没什么爬取价值。（1分）8.
复制链接

扫一扫