1.【单选题】(1分)
通过()渠道,可以采集宏观经济数据、居民消费价格指数。
答题区域:
A. 电子商务平台
B. 国家统计局网站
C. 百度指数
D. 生意参谋
正确答案:B
题目解析:
通过国家统计局网站渠道,可以采集宏观经济数据、居民消费价格指数。
2.【单选题】(1分)
下列采集行为属于违法行为的是()
答题区域:
A. 使用生意参谋工具导出自己店铺的运营数据
B. 使用百度指数工具获取关键词搜索指数及用户画像数据
C. 通过技术手段进入竞争对手网站数据库获取网站流量及销售数据
D. 使用数据采集工具采集其他网站公开数据信息用于数据分析
正确答案:C
题目解析:
通过技术手段进入竞争对手网站数据库获取网站流量及销售数据属于违法行为。
3.【单选题】(1分)
针对国内和跨境电子商务提供数据采集和分析的工具是()
答题区域:
A. 淘数据
B. 生意参谋
C. 店侦探
D. 京东商智
正确答案:A
题目解析:
淘数据是针对国内和跨境电子商务提供数据采集和分析的工具。
4.【单选题】(1分)
数据收集阶段,外部渠道不包括()
答题区域:
A. 顾客的购买记录
B. 行业协会
C. 专业咨询机构
D. 报刊书籍资料
正确答案:A
题目解析:
顾客的购买记录不属于外部渠道。
5.【单选题】(1分)
统计分析报告的基本特色是()
答题区域:
A. 运用大量图标
B. 运用大量第三方资料
C. 运用大量外部资料
D. 运用大量统计数据
正确答案:D
题目解析:
统计分析报告的基本特色是运用大量统计数据。
6.【单选题】(1分)
()是一套专业的网站内容采集软件,支持各类论坛的帖子和回复采集,网站和博客文章内容抓取,通过相关配置,能轻松的采集80%的网站内容为己所用。
答题区域:
A. 易采集
B. 内容易采集
C. 狂人采集器
D. 内容采集器
正确答案:C
题目解析:
狂人采集器是一套专业的网站内容采集软件,支持各类论坛的帖子和回复采集,网站和博客文章内容抓取,通过相关配置,能轻松的采集80%的网站内容为己所用。
7.【单选题】(1分)
明确数据分析目标是确保数据分析整个过程有序进行的先决条件,也为后续的数据()指引方向。
答题区域:
A. 收集、处理、分析
B. 收集、压缩、分析
C. 统计、收集、分析
D. 分析、收集、处理
正确答案:A
题目解析:
明确数据分析目标是确保数据分析整个过程有序进行的先决条件,也为后续的数据收集、处理、分析指引方向。
8.【多选题】(1分)
数据分析报告的正文部分有()
答题区域:
A. 具体分析过程
B. 数据展示
C. 评估分析结果
D. 数据分析结论
正确答案:ABC
题目解析:
数据分析报告的正文部分有具体分析过程、数据展示、评估分析结果等。
9.【多选题】(1分)
专项数据报表的制作将围绕()三个维度展开。
答题区域:
A. 市场
B. 运营
C. 产品
D. 售后
正确答案:ABC
题目解析:
专项数据报表的制作将围绕市场、运营、产品三个维度展开。
10.【多选题】(1分)
以下关于数据采集基本方法的说法正确的是()
答题区域:
A. 爬虫:通过编写网络爬虫,设置好数据源后进行有目标性的爬取数据
B. 录入: 通过使用系统录入页面将已有的数据录入至系统中
C. 导入:针对已有的批量的结构化数据可以开发导入工具将其导入系统中
D. 接口: 通过 API 接口将其他系统中的数据采集到本系统中
正确答案:ABCD
题目解析:
以上说法均正确。
11.【多选题】(1分)
正文是一篇数据分析报告的核心部分,必须与分析思路相结合,要以严谨科学的论证,确保观点的合理性和真实性,以下对正文部分的描述正确的是()
答题区域:
A. 正文部分要包括分析背景、目的及思路三方面
B. 正文部分以图文并茂的方式将数据分析过程与分析结果进行展示
C. 正文部分的展示需要美观,可以风格多样,加入多种展示样式、丰富展示的类
D. 正文在编写过程中应科学严谨、结构清晰、结论明确
正确答案:BD
题目解析:
正文部分要包括评估分析结果、具体分析过程、数据展示。图表和表格应简洁明了,避免过多的细节和复杂的图形。
12.【多选题】(1分)
定期分析报告具有()特点。
答题区域:
A. 规范性
B. 进度性
C. 时效性
D. 单一性
正确答案:ABC
题目解析:
定期分析报告具有规范性、进度性、时效性特点。
13.【多选题】(1分)
循环采集包括()
答题区域:
A. 文本循环
B. 单个元素循环口
C. 随机循环
D. URL循环
正确答案:ACD
题目解析:
循环采集包括文本循环、随机循环、URL循环。
14.【判断题】(1分)
客户价值分析的过程为数据清洗、数据处理、数据计算、数据分析与展示。
答题区域:
A. √
B. ×
正确答案:A
题目解析:
以上说法正确。
15.【判断题】(1分)
百度指数属于行业趋势及人群数据分析工具。
答题区域:
A. √
B. ×
正确答案:A
题目解析:
以上说法正确。
16.【判断题】(1分)
某APP采集了用户的浏览阅读记录,通过对阅读记录进行分析,向用户推送更加精准的内容。该采集行为违法。
答题区域:
A. √
B. ×
正确答案:A
题目解析:
以上说法正确。
17.【判断题】(1分)
通过抓取竞争店铺的属性数据,可以了解竞争店铺是不是原创品牌。
答题区域:
A. √
B. ×
正确答案:A
题目解析:
以上说法正确。
18.【判断题】(1分)
通过数据库采集系统直接与企业业务后台服务器结合,将企业业务后台每时每刻产生的大量业务记录写入到数据库中,最后由特定的处理系统进行数据分析,这类数据采集方法是数据库采集。
答题区域:
A. √
B. ×
正确答案:A
题目解析:
以上说法正确。
19.【判断题】(1分)
数据分析报告的正文部分包括数据分析结论。
答题区域:
A. √
B. ×
正确答案:B
题目解析:
数据分析报告的正文部分包括具体分析过程、数据展示、评估分析结果等。
20.【判断题】(1分)
数据分析是用适当的分析方法及工具,对处理过的数据进行分析,提取有价值的信息,形成有效结论的过程。
答题区域:
A. √
B. ×
正确答案:A
题目解析:
以上说法正确。
21.【单选题】(1分)
图表类型的选择有依赖于所要处理和展现的数据类型,例如离散数据的数值可清晰计数,最适合用什么图表展示?
答题区域:
A. 饼图
B. 柱状图
C. 气泡图
D. 曲线图
正确答案:B
题目解析:
离散数据的数值可清晰计数,最适合用柱状图来展示
22.【单选题】(1分)
对于关系数据,我们要做的是尝试着探索事物的?
答题区域:
A. 因果关系
B. 线性关系
C. 逻辑关系
D. 相关关系
正确答案:D
题目解析:
关系数据,我们要做的是尝试着探索事物的相关关系
23.【单选题】(1分)
以下哪个选项不是可视化的作用?
答题区域:
A. 传播交流
B. 信息记录
C. 数据采集
D. 数据分析
正确答案:A
题目解析:
信息记录、数据采集、数据分析是可视化的作用。
24.【单选题】(1分)
下列选项中,不是地理信息数据可视化分析的应用是?
答题区域:
A. 通过交互式发现拥堵的路口
B. 通过地图分析微博数据的传播情况
C. 自动计算异常的轨迹
D. 通过图表了解区域之间的收入差异
正确答案:C
题目解析:
自动计算异常的轨迹不是地理信息数据可视化分析的应用
25.【单选题】(1分)
下列哪一项是定性或分类的视觉通道?
答题区域:
A. 形状
B. 包含
C. 相似
D. 直线的长度
正确答案:A
题目解析:
形状是定性或分类的视觉通道
26.【单选题】(1分)
数据可视化往往只是从特定的视角或需求来认知数据,并得到符合特定目的的可视化模式。上述特征属于大数据可视化基础特征的哪个方面?
答题区域:
A. 专业性
B. 片面性
C. 多维性
D. 易懂性
正确答案:B
题目解析:
数据可视化往往只是从特定的视角或需求来认知数据,并得到符合特定目的的可视化模式。这属于大数据可视化基础特征的片面性
27.【单选题】(1分)
针对比例数据,研究者关心的是?
答题区域:
A. 各比例的顺序
B. 各比例的分布和相互关系
C. 各比例的变化
D. 各比例的大小
正确答案:B
题目解析:
比例数据,研究者关心的是各比例的分布和相互关系
28.【多选题】(1分)
按数据组织的类型划分,柱形图可以分为( )
答题区域:
A. 簇状柱形图
B. 堆积柱形图
C. 百分比堆积柱形图
D. 圆锥柱形图
正确答案:ABC
题目解析:
按数据组织的类型划分,柱形图可以分为簇状柱形图、堆积柱形图、百分比堆积柱形图
29.【多选题】(1分)
数据可视化流程的核心要素有哪些?
答题区域:
A. 数据表示与变换
B. 数据的可视化呈现
C. 用户交互
D. 数据预测
正确答案:ABC
题目解析:
数据可视化流程的核心要素:数据表示与变换、数据的可视化呈现和用户交互。
30.【多选题】(1分)
可视化可以?
答题区域:
A. 增强人类的认知能力
B. 作为大量工作记忆的外界辅助
C. 协助人类进行思考
D. 让人们使用感知代替认知
正确答案:ABCD
题目解析:
可视化可以增强人类的认知能力、作为大量工作记忆的外界辅助、协助人类进行思考、让人们使用感知代替认知
31.【多选题】(1分)
关于可视化之美,下列说法正确的是?
答题区域:
A. 美的可视化必须具备某些新颖性,比如以一种新颖的视角观察数据
B. 美的可视化具备清晰的信息传递目标,不要包含太多和主题无关的内容或信息
C. 图形的构建,包括坐标轴、布局、色彩等,是实现美的可视化最重要因素
D. 美的可视化具有新颖、充实、高效等特点
正确答案:ABD
题目解析:
图形的构建,包括坐标轴、布局、形状、色彩、线条和排版等,是实现数据可化的必要因素。就算如此,图形设计也必须主要服务于信息传递这一终极目标。
32.【多选题】(1分)
关于百分比堆积柱形图,下列表述正确的是?
答题区域:
A. 百分比堆积柱形图是堆积柱形图的变体
B. 百分比堆积柱形图的各子类按频数进行堆叠
C. 百分比堆积柱形图每个柱形的长度均为1
D. 百分比堆积柱形图用到的可视化元素不包括位置
正确答案:AC
题目解析:
百分比堆积柱形图的各子类按百分比进行堆叠
33.【多选题】(1分)
以下哪些是散点图数据点重叠问题的解决方案?
答题区域:
A. 透明化
B. 数据分箱
C. 随机扰动
D. 调整坐标轴范围
正确答案:ABC
题目解析:
散点图数据点重叠的解决方法有:透明化、数据分箱、随机扰动、箱线图
34.【判断题】(1分)
交叉型数据属于脏数据。
答题区域:
A. 对
B. 错
正确答案:B
题目解析:
重复数据、错误数据、缺失数据属于脏数据,交叉数据不属于脏数据
35.【判断题】(1分)
反映发展趋势的可视化图表有柱型图、面积图、折线图。
答题区域:
A. 对
B. 错
正确答案:A
题目解析:
反映发展趋势的可视化图表有柱型图、面积图、折线图。
36.【判断题】(1分)
可视化的精髓与核心是图表。
答题区域:
A. 对
B. 错
正确答案:B
题目解析:
可视化的精髓与核心是数据
37.【判断题】(1分)
利用窗体控件不需要代码就能实现交互式操作,创建动态图表,在图表上完成数据切换。
答题区域:
A. 对
B. 错
正确答案:A
题目解析:
利用窗体控件不需要代码就能实现交互式操作,创建动态图表,在图表上完成数据切换。
38.【判断题】(1分)
可视化和其他数据分析处理方法最大的不同是用户起到了关键作用,可视化映射后的结果只有通过可视化映射才能转换成知识和灵感。
答题区域:
A. 对
B. 错
正确答案:B
题目解析:
可视化和其他数据分析处理方法最大的不同是用户起到了关键作用,可视化映射后的结果只有通过用户感知才能转换成知识和灵感
39.【判断题】(1分)
极坐标图形是使用相角和距离来绘制的。
答题区域:
A. 对
B. 错
正确答案:A
题目解析:
极坐标图形是使用相角和距离来绘制的。
40.【判断题】(1分)
当数据维度非常高的时候,我们需要使用降维的方法降低数据维度,并且保证数据的特征不变。
答题区域:
A. 对
B. 错
正确答案:A
题目解析:
当数据维度非常高的时候,我们需要使用降维的方法降低数据维度,并且保证数据的特征不变。
41.【单选题】(1分)
大数据最明显的特点就是()。
答题区域:
A. 数据体量大
B. 数据类型繁多
C. 价值密度低
D. 处理速度快
正确答案:A
题目解析:
大数据最明显的特点就是体量大。
42.【单选题】(1分)
下列关于数据交易市场的说法中,错误的是()。
答题区域:
A. 数据交易市场是大数据产业发展到一定程度的产物
B. 商业化的数据交易活动催生了多方参与的第一方数据交易市场
C. 数据交易市场通过生产数据、研发和分析数据,为数据交易提供帮助
D. 数据交易市场是大数据资源化的必然产物
正确答案:C
题目解析:
信息技术的发展从以计算机为核心到以互联网为中心,再到以数据为核心,人们挖掘信息后发现了数据的价值,催生了数据交易的发展。ABD项的描述均可,C项数据交易市场不能作为数据生产、研发和分析的主体,说明有问题,所以选C项。
43.【单选题】(1分)
大数据的起源是()。
答题区域:
A. 金融
B. 互联网
C. 公共管理
D. 电信
正确答案:B
题目解析:
大数据的起源是互联网,随着互联网的普及和发展,人们产生了大量的数据,而这些数据对于企业、政府等各方面都有着重要的价值和意义,因此逐渐形成了大数据这一概念,电信、金融等行业是大数据应用的重要领域,但并非大数据的起源。
44.【单选题】(1分)
根据不同的业务需求来建立数据模型,抽取最有意义的向量,决定选取哪种方法的数据分析角色人员是()。
答题区域:
A. 数据分析员
B. 研究科学家
C. 数据管理人员
D. 软件开发工程师
正确答案:B
题目解析:
根据不同的业务需求来建立数据模型,抽取最有意义的向量,决定选取哪种方法的数据分析角色人员是研究科学家。
45.【单选题】(1分)
下列关于舍恩伯格对大数据特点的说法中,错误的是()。
答题区域:
A. 数据规模大
B. 数据类型多样
C. 数据处理速度快
D. 数据价值密度高
正确答案:D
题目解析:
大数据价值密度低。大数据中包含了大量的有价值信息,但价值密度往往较低,也就是说,大量的数据中只有一小部分是有价值的。
46.【单选题】(1分)
下面关于大数据的论断说法错误的是()。
答题区域:
A. 大数据是一种思维方式,是人们认识事物的根本规律和依据
B. 数据是信息技术的根本,而大数据将是智能化的核心
C. 数据价值的挖掘和利用成为组织利用大数据的主要目的
D. 大数据使人类的活动方式如社交、消费和学习等众多方面都发生了全面变化
正确答案:A
题目解析:
大数据不是人们认识事物的根本规律和依据,只有在实践中人们才能认识事物的本质和规律。
47.【单选题】(1分)
支撑大数据业务的基础是()。
答题区域:
A. 数据科学
B. 数据应用
C. 数据硬件
D. 数据人才
正确答案:B
题目解析:
随着大数据技术飞速发展,大数据应用已经融入各行各业,它是支撑大数据业务的基础。
48.【单选题】(1分)
一切皆可连,任何数据之间逻辑上都有可能存在联系,这体现了大数据思维维度中的()。
答题区域:
A. 定量思维
B. 因果思维
C. 实验思维
D. 相关思维
正确答案:D
题目解析:
大数据相关思维是指一切皆可连,消费者行为的不同数据都有内在联系。这可以用来预测消费者的行为偏好。
49.【单选题】(1分)
下列说法中,关于清洗重复值说法正确的是()。
答题区域:
A. 清洗重复值的基本思想是“分而合之”
B. 清洗重复值的基本思想是“排序”
C. 清洗重复值的基本思想是“排序和合并”
D. 清洗重复值的基本思想是“合并”
正确答案:C
题目解析:
对于重复项的判断,基本思想是“排序与合并”,先将数据集中的记录按一定规则排序,然后通过比较邻近记录是否相似来检测记录是否重复,如果重复就将所有重复项合并为一条。
50.【单选题】(1分)
下列关于数据源的描述错误的是()。
答题区域:
A. 数据源是指数据库应用程序所使用的数据库或者数据库服务器
B. 数据源即数据的来源,是提供某种所需要数据的器件或原始媒体
C. 数据源中存储了所有建立数据库连接的信息
D. 通过提供的数据源名称,不能找到相应的数据库连接
正确答案:D
题目解析:
通过提供的数据源名称可以找到相应的数据库连接。
51.【多选题】(1分)
关于数据的使用和管理,下面说法正确的是()。
答题区域:
A. 想要使用数据,必须先进行数据清洗,将数据变成一个可用的状态
B. 有些初始数据的质量不高,比如数据缺失、语意模糊,因此需要数据清洗
C. 进行数据管理时,关系型数据库更擅长存储非结构化数据
D. 现代社会产生的大部分数据实际上是非结构化数据
正确答案:ABD
题目解析:
关系型数据库适合处理结构化数据,而非关系型数据库适合处理半结构化和非结构化数据。
52.【多选题】(1分)
数据爆炸的时代对科学研究提出的挑战包括()。
答题区域:
A. 需要更低成本的、能更快响应的大规模分布式存储
B. 需要更多的数据用于数据价值的挖掘
C. 需要更加及时的大数据处理能力
D. 需要更加高效的数据分析工具
正确答案:ACD
题目解析:
数据爆炸的时代已经有海量的数据,所以需要更多的数据不属于对科学研究提出的挑战。
53.【多选题】(1分)
下列关于数据生命周期管理的核心认识中,正确的是()。
答题区域:
A. 数据从产生到被删除销毁的过程中,具有多个不同的数据存在阶段
B. 在不同的数据存在阶段,数据的价值是不同的
C. 数据生命周期管理旨在产生效益的同时,降低生产成本
D. 数据生命周期管理最终关注的是社会效益
正确答案:AB
题目解析:
数据生命周期管理的目标是优化数据的价值和利用效率,降低数据管理成本,同时满足相关法规和合规要求;数据生命周期管理最终关注的不是社会效益。
54.【多选题】(1分)
云计算的特点包括以下哪些方面?
答题区域:
A. 服务可计算
B. 高性价比
C. 服务可租用
D. 低使用度
正确答案:ABC
题目解析:
云计算的特点包括服务可计算、高性价比、服务可租用、高使用度。
55.【多选题】(1分)
传统数据密集型行业积极探索和布局大数据应用的表现是()。
答题区域:
A. 打通多源跨域数据
B. 自行开发数据产品
C. 提高分析挖掘能力
D. 实现科学决策与运营
正确答案:ACD
题目解析:
传统数据密集型行业积极探索和布局大数据应用的过程中没有要求要自行开发数据产品。
56.【多选题】(1分)
关于云计算,说法正确的是()。
答题区域:
A. 云计算是一种超大规模计算
B. 云计算能够提供可拓展的计算能力
C. 云计算经常用到虚拟化技术,使得一台物理主机同时为多名用户提供安全的计算机资源
D. 云计算能够降低企业建设信息化系统的成本
正确答案:ABCD
题目解析:
以上说法均正确。
57.【多选题】(1分)
数据预处理的步骤有哪些?
答题区域:
A. 数据清理
B. 数据集成
C. 数据变换
D. 数据归约
正确答案:ABCD
题目解析:
以上均属于数据预处理的步骤。
58.【多选题】(1分)
平台为了避免被第三方大量采集数据,均设置了反爬虫机制。反爬虫机制一般包含哪些方式?
答题区域:
A. 暴力破解
B. IP限制
C. 账号权限限制
D. 密钥匹配
正确答案:BCD
题目解析:
平台为了避免被第三方大量采集数据,均设置了反爬虫机制。反爬虫机制一般包含IP限制、账号权限限制和密钥匹配。
59.【多选题】(1分)
下列属于离群点产生的原因的是()。
答题区域:
A. 数据本身的可变性
B. 计算的误差或者操作的错误
C. 噪声
D. 操作人员随意添加
正确答案:ABC
题目解析:
离群点产生的原因包括数据本身的可变性、计算的误差或者操作的错误和噪声。
60.【多选题】(1分)
下列数据变换类型及方法正确的是()。
答题区域:
A. 数据聚集:对数值属性进行监督或无监督离散化
B. 数据平滑:去噪,将连续数据离散化,增加粒度
C. 特征构造:构造出新的属性
D. 数据规范化:使数据按照比例缩放,落入特定区域
正确答案:BCD
题目解析:
数据聚集:对数据进行汇总。
61.【判断题】(1分)
数据本身没有意义,数据只有对实体行为产生影响时才成为信息。
答题区域:
A. √
B. ×
正确答案:A
题目解析:
数据和信息是不可分离的,数据是信息的表达,信息是数据的内涵。数据本身没有意义,数据只有对实体行为产生影响时才成为信息。
62.【判断题】(1分)
大数据更强调批量式分析而非实时分析。
答题区域:
A. √
B. ×
正确答案:B
题目解析:
大数据更强调实时分析而非批量式分析。
63.【判断题】(1分)
对于大数据而言,最基本、最重要的要求就是减少错误、保证质量。因此,大数据收集的信息要尽量精确。
答题区域:
A. √
B. ×
正确答案:B
题目解析:
大数据是为了发现宏观规律的,不要求那么精确。
64.【判断题】(1分)
数据一旦创建就不应被修改,否则有损其真实性。
答题区域:
A. √
B. ×
正确答案:A
题目解析:
数据一旦创建就不应被修改,否则有损其真实性。
65.【判断题】(1分)
从数据的使用来看大数据时代的数据向所有的合法用户保持开放,任何用户都没有数据特权。
答题区域:
A. √
B. ×
正确答案:A
题目解析:
大数据的一个鲜明特征就是其开放性。从数据来源来看,大数据时代的数据建设对所有的有效数据保持开放;从数据的使用来看大数据时代的数据向所有的合法用户保持开放,任何用户都没有数据特权。
66.【判断题】(1分)
大数据技术是指处理超过传统计算机处理能力范围的数据。
答题区域:
A. √
B. ×
正确答案:A
题目解析:
大数据技术是指处理超过传统计算机处理能力范围的数据。这些数据通常具有高速度、高复杂度和高多样性等特点,需要新的技术手段来进行采集、存储、管理、分析和应用。
67.【判断题】(1分)
在大数据的范围内,应当把用户视为互联网中的数据分子,独立、仔细地对其行为进行分析,充足发掘大数据的价值,变数据为财产。
答题区域:
A. √
B. ×
正确答案:B
题目解析:
大数据是把用户产生的数据进行汇总分析,预测其未来趋势,并不是独立分析。
68.【判断题】(1分)
从数据清洗方式的设计者角度来看,可以将脏数据分为“独立型脏数据”和“依赖型脏数据”两类。
答题区域:
A. √
B. ×
正确答案:A
题目解析:
从数据清洗方式的设计者角度来看,可以将脏数据分为“独立型脏数据”和“依赖型脏数据”两类。
69.【判断题】(1分)
离群点因偏离一般水平而不需要考虑和研究。
答题区域:
A. √
B. ×
正确答案:B
题目解析:
离群点检测在很多现实环境中都有很大的应用价值,如网络入侵检测、工业损毁检测、网络异常检测、医疗处理和欺诈检测等。
70.【判断题】(1分)
不完整数据主要包括日期越界的数据。
答题区域:
A. √
B. ×
正确答案:B
题目解析:
不完整数据主要包括缺失部分信息的数据,日期越界的数据属于错误数据。
71.【判断题】(1分)
在抽样推断中,作为推断对象的总体和作为观察对象的样本都是确定的、唯一的。
答题区域:
A. √
B. ×
正确答案:B
题目解析:
由于样本是从总体中随机抽取的,因此样本具有随机性,而不是确定的、唯一的。
72.【判断题】(1分)
关联规则挖掘的主要目的是发现购物篮分析中的商品组合。
答题区域:
A. √
B. ×
正确答案:A
题目解析:
关联规则挖掘的主要目的是发现数据集中的有趣关系,例如在购物篮分析中,发现经常一起购买的商品组合。
73.【单选题】(1分)
某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?
答题区域:
A. 关联规则发现
B. 聚类
C. 分类
D. 自然语言处理
正确答案:A
题目解析:
关联规则(Association Rules)是反映一个事物与其他事物之间的相互依存性和关联性。啤酒尿布案例则是一则经典的关联规则案例,超市里经常会把婴儿的尿不湿和啤酒放在一起售卖,原因是经过数据分析发现,于20世纪90年代,在美国有婴儿的家庭中,一般是母亲在家中照看婴儿,年轻的父亲前去超市购买尿布。父亲在购买尿布的同时,往往会顺便为自己购买啤酒,这样就会出现啤酒与尿布这两件看上去不相干的商品经常会出现在同一个购物篮的现象。
74.【单选题】(1分)
如果规则集中的规则按照优先级降序排列,则称规则集是()
答题区域:
A. 无序规则
B. 穷举规则
C. 互斥规则
D. 有序规则
正确答案:D
题目解析:
按优先级降序排列后的序列即有序数列
75.【单选题】(1分)
根据某地区 2001~2009 年农作物种植面积(X)与农作物产值(Y),可以建立一元线性回归模型,估计结果得到判定系数 R²=0.9,回归平方和 SSR=90,则估计标准误差为()。
答题区域:
A. 1.195
B. 1.291
C. 3.162
D. 3.586
正确答案:A
题目解析:
由R²=SSR/SST和 SST=SSE+SSR 得,SST=SSR/R²=90/0.9=100,SSE=SST-SSR=100-90=10,所以标准误差=根号[SSE/(n-2)]=根号[10/7]=1.195。
76.【多选题】(1分)
以下说法中正确的是? ()
答题区域:
A. SVM对噪声(如来自其他分布的噪声样本)鲁棒
B. 在AdaBoost算法中,所有被分错的样本的权重更新比例相同
C. Boosting和Bagging都是组合多个分类器投票的方法,二者都是根据单个分类器的正确率决定其权重
D. 给定n个数据点,如果其中一半用于训练,一般用于测试,则训练误差和测试误差之间的差别会随着n的增加而减少
正确答案:BD
题目解析:
A、SVM对噪声 (如来自其他分布的噪声样本)鲁棒 SVM本身对噪声具有一定的鲁棒性,但实验证明,是当噪声率低于一定水平的噪声对SVM没有太大影响,但随着噪声率的不断增加,分类器的识别率会降低 B、在AdaBoost算法中所有被分错的样本的权重更新比例相同 AdaBoost算法中不同的训练集是通过调整每个样本对应的权重来实现的。开始时,每个样本对应的权重是相同的,即其中n为样本个数,在此样本分布下训练出一弱分类器。对于分类错误的样本,加大其对应的权重,而对于分类正确的样本,降低其权重,这样分错的样本就被凸显出来,从而得到一个新的样本分布。在新的样本分布下,再次对样本进行训练,得到弱分类器。以此类推,将所有的弱分类器重叠加起来,得到强分类器。 Boos和Bagging都是组合多个分类器投票的方法,二者均是根据单个分类器的正确率决定其权重, Bagging与Boosting的区别 取样方式不同。 Bagging采用均匀取样,而Boosting根据错误率取样 Bagging的各个预测函数没有权重,而Boosting是有权重的 Bagging的各人预测函数可以并行生成,而Boosing的各人预测函数只能顺序生成
77.【多选题】(1分)
以下关于决策树的说法是正确的有()
答题区域:
A. 冗余属性不会对决策树的准确率造成不利的影响
B. 子树可能在决策树中重复多次
C. 决策树算法对于噪声的干扰非常敏感
D. 寻找最佳决策树是 NP 完全问题
正确答案:ABD
题目解析:
决策树算法对于噪声的干扰不敏感
78.【判断题】(1分)
采样分析的精确性随着采样随机性的增加而降低,但与样本数量的增加关系不大。
答题区域:
A. √
B. ×
正确答案:B
题目解析:
采样分析的精确性随着采样随机性的增加而提高,但与样本数量的增加关系不大。
79.【判断题】(1分)
简单算数平均数与个别极端值没有关系。
答题区域:
A. √
B. ×
正确答案:B
题目解析:
中位数不受极端值影响,但简单算数平均数结果会随极端值变化,因此本题错误。
80.【判断题】(1分)
从本质上讲,平滑指数法也是一种特殊的加权平均法。
答题区域:
A. √
B. ×
正确答案:A
题目解析:
平滑指数法是一种特殊的加权平均法,它通过对历史数据进行加权处理,以更精确地预测未来的趋势和模式。与简单加权平均法不同的是,平滑指数法在计算中考虑了数据变化的趋势和速度,以便更准确地反映实际情况。
81.【多选题】(1分)
以下哪些方法可以直接来对文本分类()
答题区域:
A. Kmeans
B. 决策树
C. 支持向量机
D. KNN
正确答案:BCD
题目解析:
Kmeans是聚类方法,典型的无监督学习方法。分类是监督学习方法、
82.【多选题】(1分)
在评价不平衡类问题分类的度量方法有哪几种()
答题区域:
A. F1度量
B. 召回率(recall)
C. 精度(precision)
D. 真正率(ture positive rate,TPR)
正确答案:ABCD
题目解析:
不平衡数据是指目标类的观测值分布不均匀的数据集类型,即一个类标签的观测值数量非常多,而另一个类标签的观测值数量非常少。对于不平衡分类,有两类测度可能有用,因为它们专注于一个类别。它们是灵敏度-特异度(Sensitivity-Specificity(SS))和精度-召回率(Precision-Recall(PR))灵敏度是指真阳率,并总结了对阳性分类的预测的优劣。精度总结了测试为真阳的样本所占被归类为正类别样本的分数。召回率总结了对阳性分类的预测的准确程度,并且与灵敏度相同。精度和召回率可以组合为一个单一的值,从而去平衡两种测度,该称为F值(F-Score)或F测度。
83.【多选题】(1分)
缺失值的处理方法有 ()
答题区域:
A. 删除含有缺失值的数据
B. 均值填充
C. 随机森林算法填充
D. 不处理
正确答案:ABC
题目解析:
对于缺失值的处理,从总体上来说有删除缺失值和缺失值插补,缺失值插补方法有:中位数平均值/众数填充直接填充0或-1、Knn插值、多变量插值、线性插值、随机森林
84.【单选题】(1分)
对于一个列联表来说,多维尺度分析关注的是 ()
答题区域:
A. 行变量和列变量两者的相关性
B. 变量之间的相关关系
C. 行变量之间的相似性
D. 维度的含义
正确答案:C
题目解析:
主成分分析关注变量之间的相关关系。因子分析关注维度的含义。对应分析关注行变量和列变量两者的相关性。
85.【单选题】(1分)
对于极值正规化 (Min-Max Normalization) 及 Z-分数正规化(Z-Score Normalization)的结果,以下判断正确的是()
答题区域:
A. 经过Z-Score Normalization处理后的数据,不可能再有小于0的值
B. 经过过Z-Score Normalization处理后的数据,不可能再有大于1的值
C. 经过Min-Max Normalization处理后的数据,不可能再有小于0的值
D. 经过Min-Max Normalization处理后的数据,可能还有大于1的值
正确答案:C
题目解析:
Z-Score Normalization处理后的数据会在0附近,也有可能取大于1的值。Min-Max Normalization处理后的数据,只可能在0和1之间。
86.【单选题】(1分)
某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?
答题区域:
A. 关联规则发现
B. 分类
C. 回归
D. 聚类
正确答案:A
题目解析:
关联规则最初提出的动机是针对购物篮分析问题(比如啤酒与尿布)提出的
87.【单选题】(1分)
为了减小多重共线性的影响,可以使用哪种回归模型?
答题区域:
A. 岭回归
B. 逻辑回归
C. 线性回归
D. 多项式回归
正确答案:A
题目解析:
为了减小多重共线性的影响,可以使用岭回归
88.【单选题】(1分)
决策树中不包含以下哪种节点
答题区域:
A. 叶节点
B. 根节点
C. 内部节点
D. 外部节点
正确答案:D
题目解析:
决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别
89.【单选题】(1分)
下面属于 Bagging 方法的特点是
答题区域:
A. 构造训练集时采用 Bootstraping 的方式
B. 每一轮训练时样本权重不同
C. 分类器必须按顺序训练
D. 预测结果时,分类器的比重不同
正确答案:A
题目解析:
Bagging算法在构造训练集时采用 Bootstraping 的方式
90.【单选题】(1分)
以下关于决策树算法说法错误的是
答题区域:
A. C4.5算法不能用于处理不完整数据
B. C4.5算法选择信息增益率来选择属性
C. CART算法选择基尼系数来选择属性
D. ID3算法选择信息增益最大的特征作为当前决策节点
正确答案:A
题目解析:
C4.5算法能对不完整数据进行处理
91.【多选题】(1分)
在数据挖掘中需要划分数据集,常用的划分测试集和训练集的划分方法有哪些
答题区域:
A. 留出法
B. 交叉验证法
C. 自助法
D. 评分法
正确答案:ABC
题目解析:
常用的划分测试集和训练集的划分方法有留出法、交叉验证法、自助法等
92.【多选题】(1分)
数据的质量包括
答题区域:
A. 精确性
B. 完整性
C. 可信性
D. 一致性
正确答案:ABCD
题目解析:
以上均为数据质量
93.【多选题】(1分)
在RFM模型中,我们需要根据哪些数据进行客户价值分类?
答题区域:
A. 消费平均金额
B. 消费总金额
C. 最近一次消费
D. 消费频率
正确答案:BCD
题目解析:
在RFM模型中,我们根据R(最近一次消费)、F(消费频率)、M(消费总金额)进行客户价值分类
94.【多选题】(1分)
朴素贝叶斯是一个
答题区域:
A. 低方差模型
B. 高方差模型
C. 判别式模型
D. 生成式模型
正确答案:AD
题目解析:
朴素贝叶斯是低方差、生成式模型
95.【多选题】(1分)
进行线性回归分析的条件有
答题区域:
A. x一定为正态分布
B. y一定为正态分布
C. x和y可以呈双变量正态分布
D. x和y一定为双变量正态分布
正确答案:BC
题目解析:
线性回归分析中,y一定为正态分布,x和y可以呈双变量正态分布
96.【判断题】(1分)
数据挖掘的目标不在于数据采集策略,而在于对于已经存在的数据进行模式的发掘
答题区域:
A. 对
B. 错
正确答案:A
题目解析:
数据挖掘的目标不在于数据采集策略,而在于对于已经存在的数据进行模式的发掘
97.【判断题】(1分)
聚类是在预先没有训练和不知道划分类别的情况下,根据信息相似度原则把样本划分为若干类
答题区域:
A. 对
B. 错
正确答案:A
题目解析:
聚类是在预先没有训练和不知道划分类别的情况下,根据信息相似度原则把样本划分为若干类
98.【判断题】(1分)
如果一个对象不属于任何簇,那么该对象是基于聚类的离群点
答题区域:
A. 对
B. 错
正确答案:A
题目解析:
如果一个对象不强属于任何簇,那么该对象是基于聚类的离群点
99.【判断题】(1分)
TF-IDF值越高,说明该词越重要
答题区域:
A. 对
B. 错
正确答案:A
题目解析:
TF-IDF值越高,说明该词越重要
100.【判断题】(1分)
回归问题和分类问题都有可能发生过拟合
答题区域:
A. 对
B. 错
正确答案:A
题目解析:
回归问题和分类问题都有可能发生过拟合