数据采集与管理【16】

星绘搜题

于 2022-02-17 09:03:15 发布

阅读量1.3k

点赞数

文章标签：正则表达式爬虫搜索引擎

本文链接：https://blog.csdn.net/robin9409/article/details/122958149

版权

本文探讨了数据质量的重要属性，如正确性、完整性、有效性与时效性，以及如何处理错误和不完整数据。同时，深入讲解了网络爬虫的工作原理，包括通用爬虫、增量爬虫和聚焦爬虫，以及HTTP请求方法如GET、POST、PUT和DELETE的用途。还介绍了正则表达式在数据匹配和爬虫过滤中的应用，并讨论了HTTP响应头域和状态码的意义。最后，提到了数据预处理的ETL过程和数据清洗的必要性。

摘要由CSDN通过智能技术生成

1.数据的正确性指的是所有需要的数据是否都存在。

2.HTTP请求的（）方法是在Request-URI所标识的资源后附加新的数据。

A.GET
B.POST
C.PUT
D.TRACE

3.错误的数据就是指不完整的数据。

4.正则表达式支持匹配边界。例如，()匹配行首。。

A.$
B.\d
C.^
D.\w

5.字符串“aaaaaa”可以匹配正则表达式“\w｛3,｝”。

6.以下关于正则表达式的说法，不正确的是（）

A.主流开发语言C++、Java均不支持正则表达式
B.正则表达式是一种文本模式，模式描述在搜索文本时要匹配的一个或多个字符串
C.正则表达式是对字符串操作的一种逻辑公式
D.正则表达式的使用非常灵活性，逻辑性和功能性非常强

7.通用网络爬虫的说法，正确的有（）

A.又称全网爬虫
B.主要为门户站点搜索引擎和大型Web服务提供商采集数据
C.通常采用串行工作方式
D.爬行对象从一些种子URL扩充到整个Web

8.正则表达式中，（）匹配除了换行符之外的任意字符。

A..
B.\d
C.\w
D.^

9.数据转换的主要进行不一致的数据转换、数据粒度的转换，以及一些规则的计算。

10.数据质量的时效性指数据是否在企业定义的可接受的范围之内。

11.聚焦爬虫根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。

12.广度优先策略能够有效控制页面的爬行深度。

13.HTTP响应中的Set-Cookie用于把cookie发送到客户端浏览器。

14.正则表达式支持匹配边界。例如，()匹配行首。。

A.^
B.\d
C.\w
D.$

15.正则表达式中，[abc]表示（）。

A.字符a,b或c
B.字符串abc
C.同时包含abd的字符串
D.字符a

16.（），又称主题网络爬虫，是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫。

A.增量式网络爬虫
B.通用网络爬虫
C.深层网络爬虫
D.聚焦网络爬虫

17.数据的有效性指数据是否易于获取、易于理解和易于使用。

18.聚焦爬虫爬行策略实现的关键是评价（）的重要性，不同的方法计算出的重要性不同，由此导致链接的访问顺序也不同。

A.页面内容和链接
B.页面内容
C.表单信息
D.链接

19.以下字符串能匹配正则表达式"^[a-z][0-9]$”的是（）

A.1
B.a1
C.a
D.ab

20.数据的预处理ETL的L表示（）。

A.清洗
B.加载
C.抽取
D.转换

21.（）是指对已下载网页采取增量式更新和只爬行新产生的或者已经发生变化网页的爬虫，它能够在一定程度上保证所爬行的页面是尽可能新的页面。

A.聚焦网络爬虫
B.通用网络爬虫
C.增量式网络爬虫
D.深层网络爬虫

22.（）爬行过程中最重要部分就是表单填写及处理。

A.通用网络爬虫
B.深层网络爬虫
C.增量式网络爬虫
D.聚焦网络爬虫

23.HTTP请求中的（）方法用于请求服务器删除Request-URI所标识的资源。

A.GET
B.TRACE
C.PUT
D.DELETE

24.通过HTTP或者HTTPS协议请求的资源由()来标识。

A.FTP
B.URL
C.TCP
D.HTML

25.爬虫工具只能用Java语言编写。

26.HTTP请求中的Connection:keep-alive表示（）

A.客户端指定请求uri的源资源地址
B.客户端网络类型
C.客户端到服务器端的连接持续有效
D.客户端设备类型

27.HTTP响应中的（）表示浏览器应该在多少秒之后刷新文档。

A.Refresh
B.Location
C.Connection
D.WWW-Authenticate

28.以下不属于数据清洗要处理的对象的是（）。

A.重复的数据
B.错误的数据
C.不完整的数据
D.规范的数据

29.网络爬虫可以抓取Web网页、文档甚至图片、音频、视频等资源。

30.数据预处理时，要将不同系统的相同类型的数据统一。

31.正则表达式中，（）匹配除了换行符之外的任意字符。

A.\w
B.\d
C..
D.^

32.正则表达式[^A-Za-z_0-9]等价于（）。

A.\W
B.^
C.\d
D.\w

33.GET提交的数据会放在URL之后，以?分割URL和传输数据。

34.（）的搜索策略是指按照深度由低到高的顺序，依次访问下一级网页链接，直到不能再深入为止，比较适合垂直搜索或站内搜索。

A.深度优先
B.基于目标特征
C.广度优先
D.基于领域

35.（）的爬虫针对的是网页上的数据，所抓取的数据一般要符合一定的模式，或者可以转化或映射为目标数据模式。

A.基于目标数据模式
B.基于领域概念
C.基于目标网页特征
D.深层网络爬虫

36.数据刷新的策略要根据业务需求和应用系统的承受能力和数据情况决定。

37.HTTP状态码500表示由于客户端原因造成的请求失败。

38.数据（）的任务是过滤那些不符合要求的数据。

A.清洗
B.转换
C.加载
D.抽取

39.通用网络爬虫通常采用并行工作方式，但需要较长时间才能刷新一次页面。

40.HTTP请求中的（）头域代表发送端（客户端）希望接受的数据类型。

A.Referer
B.Accept
C.Cookie
D.User-Agent

41.聚焦爬虫只需要爬行与主题相关的页面。。

42.正则表达式中的量词可以匹配一个表达式多次出现，其中（）表示0次或多次。

A.?
B.+
C.^
D.*

43.以下不能匹配正则表达式"^[\d]+$"的是（）。

A.10
B.12
C.123
D.12abc

44.HTTP请求的PUT方法请求服务器回送收到的请求信息，主要用于测试或诊断。

45.数据的预处理ETL的L表示（）。

A.转换
B.抽取
C.清洗
D.加载

46.HTTP请求中的（）方法要求被请求服务器接受附在请求后面的数据，常用于提交表单。

A.TRACE
B.GET
C.PUT
D.POST

47.以下哪个HTTP响应状态表示服务器端错误（）

A.403
B.300
C.200
D.500

48.增量式网络爬虫的体系结构包含（）等。

A.排序模块
B.待爬行URL集以及本地页面URL集
C.更新模块
D.爬行模块

49.增量式爬虫中的（）指的是：爬虫以相同的频率访问所有网页，不考虑网页的改变频率。

A.随机更新法
B.个体更新法
C.基于分类的更新法
D.统一更新法

50.正则表达式中，（）匹配除了换行符之外的任意字符。

A.\d
B..
C.^
D.\w

51.深度优先的爬行策略无需存储大量中间节点。

52.如果HTTP请求的响应信息是404，则应采取下列哪项措施（）。

A.向网管报障
B.检查浏览器权限
C.再次核对请求的页面地址是否正确
D.向管理员请求用户名和密码

53.DeepWeb爬虫体系结构中的LVS用于（）。

A.初始URL集合
B.表示填充表单的数据源
C.本地页面URL集
D.待爬行URL集

54.发出的HTTP请求由三部分组成，分别是：（）。

A.应答行、消息报头、请求正文
B.请求行、消息报头、请求正文
C.请求行、请求正文
D.消息报头、请求正文

55.计算机中的数据只有符号和文字。

56.HTTP响应中的Content-Language用于WEB服务器表明自己使用了什么压缩方法。

57.不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三大类。

58.对于不完整的数据，例如一些应该有的信息缺失，如信息缺失、主表与明细表不能匹配等，应进行数据（）。

A.转换
B.抽取
C.清洗
D.加载

59.数据的有效性指的是数据是否在企业定义的可接受的范围之内。

60.以下关于网络爬虫的说法，不正确的是（）。

A.传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列直到满足系统的一定停止条件
B.网络爬虫被广泛用于互联网搜索引擎或其他类似网站
C.目前互联网上的信息分类大多数都是人工完成的
D.网络爬虫实际上是一种"自动化浏览网络”的程序，或者说是一种网络机器人

61.数据的可获取性指数据是否易于获取、易于理解和易于使用。

62.正则表达式的规则中，x|y表示匹配（）

A.x+y
B.x和y
C.x或y
D.xy

63.HTTP响应中的Date用于指示资源的最后修改日期和时间。

64.HTTP请求中（）头域的内容包含发出请求的用户信息。

A.Accept
B.Referer
C.User-Agent
D.Cookie

65.正则表达式中有一些预定义的字符分类，其中,（）表示任意单词字符。。

A.\s
B.\d
C.$
D.\w

66.HTTP请求中的“Connection:keep-alive”表示当前连接持续保持。

67.字符串abc可以匹配正则表达式“[abc]”。

68.以下关于HTTP请求方法GET的说法，正确的是（）。

A.请求查询服务器的性能
B.请求服务器删除Request-URI所标识的资源
C.请求服务器回送收到的请求信息
D.请求获取Request-URI所标识的资源

69.较早的数据不够完整或不符合新系统的数据规范也不需要更新或补充。

70.正则表达式[abc]表示字符串abc。

71.数据质量的（）表示数据是否正确的表示了现实或可证实的来源。

A.完备性
B.一致性
C.正确性
D.完整性

72.以下哪个属于深层网页（）

A.网站导航页
B.超链接可以到达的静态网页
C.网站首页
D.用户注册后内容才可见的网页

73.以下哪个属于深层网页（）

A.用户注册后内容才可见的网页
B.超链接可以到达的静态网页
C.网站首页
D.网站导航页

74.通过HTTP或者HTTPS协议请求的资源由()来标识。

A.HTML
B.TCP
C.FTP
D.URL

75.数据清洗的任务是直接删除不符合要求的数据，

76.（）描述了一种字符串匹配的模式，通常被用来检索、替换那些符合某个模式(规则)的文本。

A.数据采集
B.正则表达式
C.字符集
D.网络爬虫

77.增量式爬虫中的（）指的是：爬虫根据个体网页的改变频率来重新访问各页面。

A.随机更新法
B.个体更新法
C.基于分类的更新法
D.统一更新法

78.正则表达式中，[abc]表示（）。

A.字符串abc
B.同时包含abd的字符串
C.字符a,b或c
D.字符a

79.业务系统数据和数据仓库的粒度往往是一样的。

80.Web页面按存在方式可以分为（）

A.通用网页
B.主题网页
C.深层网页
D.表层网页

81.网络爬虫可以爬取的资源有（）

A.视频
B.图像
C.音频
D.Web网页

82.数据量大的系统，也总是整体抽取数据。

83.发出的HTTP请求由三部分组成，分别是：（）。

A.应答行、消息报头、请求正文
B.请求行、消息报头、请求正文
C.消息报头、请求正文
D.请求行、请求正文

84.以下关于深度优先的爬行策略的说法，不正确的有（）。

A.爬虫在完成一个爬行分支后返回到上一链接节点进一步搜索其它链接，直到所有链接遍历完
B.处于较浅目录层次的页面都可以首先被爬行
C.其基本方法是按照深度由低到高的顺序，依次访问下一级网页链接，直到不能再深入为止
D.比较适合垂直搜索或站内搜索

85.要消除某些数据的不可预测性，去掉一些“杂乱”的“脏”数据，就涉及到数据清洗（DataCleaning）技术。

86.HTTP响应中的（）用于重定向一个新的位置。

A.Connection
B.Location
C.WWW-Authenticate
D.Refresh

87.正则表达式中$匹配行尾。

88.以下不能匹配正则表达式"^[\d]+$"的是（）。

A.12abc
B.10
C.123
D.12

89.GET方法请求服务器存储一个资源，并用Request-URI作为其标识。

90.正则表达式中的量词可以匹配一个表达式多次出现，其中（）表示0次或多次。

A.?
B.^
C.*
D.+

91.正则表达式由一些普通字符和一些元字符组成。

92.影响质量问题的原因不包括（）。

A.数据的时间差异性问题
B.数据的获取方式多样性问题
C.数据的不稳定性问题
D.数据的依赖性问题

93.数据采集是实现大数据分析与处理的第一步。

94.通过使用Web浏览器、网络爬虫或者其它的工具，客户端发起一个到服务器上指定端口的HTTP请求。我们称这个客户端叫（）。

A.源服务器
B.用户代理
C.播放器
D.数据库

95.HTTP的请求头域可能包含Accept、Accept-Charset、Accept-Encoding、Accept-Language等字段。

96.深度优先策略的基本方法是按照深度由低到高的顺序，依次访问下一级网页链接。

97.以下哪个属于HTTP请求信息（）。

A.Expires
B.Accept-Ranges
C.Content-Length
D.User-Agent

98.网络爬虫实际上是一种"自动化浏览网络”的程序，或者说是一种网络机器人，被广泛用于互联网搜索引擎或其他类似网站，以获取或更新这些网站的内容和检索方式。

99.HTTP请求的TRACE方法请求查询服务器的性能，或者查询与资源相关的选项和需求。

100.对于空值数据的处理，可捕获字段空值，进行加载或替换为其他含义的数据，并可根据字段空值实现分流加载到不同目标库。。

星绘搜题

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫