【数据分析与挖掘(一)】笔试题汇总(附答案)

一直以来都有关注数据分析与挖掘领域,但网上信息繁杂,特此整理并筛选了python相关笔试题,供感兴趣的同仁共同学习提高。第一次发文,引陆游《冬夜读书示子聿 》的诗句共勉!

古人学问无遗力,少壮工夫老始成。 纸上得来终觉浅,绝知此事要躬行。(陆游)


一、 单选/填空题

1 一般说,numpy-matplotlib-pandas是数据分析和展示的一条学习路径,哪个是对这三个库不正确的说明?
A.pandas仅支持一维和二维数据分析,多维数据分析要用numpy
B.matplotlib支持多种数据展示,使用pyplot子库即可
C.numpy底层采用C实现,因此,运行速度很快
D.pandas也包含一些数据展示函数,可不用matplotlib

正确答案:A

2 下面两段代码,哪个说法不正确?

import numpy as np
a = np.array([0, 1, 2, 3, 4])
import pandas as pd
b = pd.Series([0, 1, 2, 3, 4])

A.a和b是不同的数据类型,之间不能直接运算
B.a和b表达同样的数据内容
C.a和b都是一维数据
D.a参与运算的执行速度明显比b快

正确答案:D

3 哪个选项更能代表如下代码的运行结果?
Python基本语法仅支持整数、浮点数和复数类型,numpy和pandas库则支持int64/int32/int16/int8等20余种数字类型,如下说法哪个不正确?
A.科学计算可能涉及很多数据,对存储和性能有较高要求,因此支持更多种数字类型。
B.numpy底层是C语言实现,因此,天然支持了多种数据类型。
C.程序员必须精确指定数据类型,因此,会给编程带来一定负担
D.对元素类型精确定义,有助于numpy和pandas库更合理优化存储空间。
正确答案:D

4 如下哪个语句能够生成一个n*n的正方形矩阵,对角线值为1,其余位置值为0。
A.np.zeros((n,n))
B.np.eye(n)
C.np.full((n,n),1)
D.np.ones((n,n))

正确答案:B

5 阅读如下代码:

import pandas as pd
s = pd.Series(10, index=['a', 'b', 'c']

关于变量s,哪个说法是不正确的?
A.如果index部分省略,默认生成的索引是0, 1, 2
B.s是一个一维数组
C.s中元素的索引分别是’a’, ‘b’, ‘c’
D.s中每个元素的值是10

正确答案:A

6 阅读如下代码:

import pandas as pd
a = pd.Series([9, 8, 7, 6], index=['a', 'b', 'c', 'd'])

哪个是print(a.index)的结果?
A.[9, 8, 7, 6]
B.[‘a’, ‘b’, ‘c’, ‘d’]
C.(‘a’, ‘b’, ‘c’, ‘d’)
D.Index([‘a’, ‘b’, ‘c’, ‘d’])

正确答案:D

7 阅读如下代码:

import pandas as pd
dt = {'one': [9, 8, 7, 6], 'two': [3, 2, 1, 0]}
a = pd.DataFrame(dt)

哪个是print(a.values)的结果?
A.[[9 8 7 6] [3 2 1 0]]
B.[3, 2, 1, 0]
C.[[9 3]
[8 2]
[7 1]
[6 0]]
D.[9, 8, 7, 6]

正确答案:C

8 pandas库中Series对象的索引表示类似:Index([5, 4, 3, 2, 1], dtype=’int’),如下哪个说法是不正确的?
A.Index()表示这是一个Index类型
B.’int’说明各元素是整数类型
C.dtype表示Index类型中各元素的数据类型
D.5, 4, 3, 2, 1是Index的五个元素,这是一个五维数据

正确答案:D

9 下面关于Series和DataFrame的理解,哪个是不正确的?
A.DataFrame表示带索引的二维数据
B.Series和DataFrame之间不能进行运算
C.Series表示带索引的一维数据
D.可以像对待单一数据一样对待Series和DataFrame对象

正确答案:B

10 请阅读如下代码:

import numpy as np
a = np.array([10, 8, 15, 6, 1])
np.gradient(a)

上述代码的运行结果是:
[-2. -1. -7. -5.]

正确答案:2.5

11 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A)
A. 关联规则发现
B. 聚类
C. 分类
D. 自然语言处理

12 以下两种描述分别对应哪两种对分类算法的评价标准? (A)
(a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。
(b)描述有多少比例的小偷给警察抓了的标准。
A. Precision, Recall
B. Recall, Precision
C. Precision, ROC
D. Recall, ROC

13 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C)
A. 频繁模式挖掘
B. 分类和预测
C. 数据预处理
D. 数据流挖掘

14 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(B)
A. 分类
B. 聚类
C. 关联分析
D. 隐马尔可夫链

15 以下哪种方法不属于特征选择的标准方法: (D)
A 嵌入
B 过滤
C 包装
D 抽样

16 下面不属于创建新属性的相关方法的是: (B)
A特征提取
B特征修改
C映射数据到新的空间
D特征构造

17 考虑值集{1、2、3、4、5、90},其截断均值(p=20%)是(C)
A 2
B 3
C 3.5
D 5

18 考虑值集{12 24 33 2 4 55 68 26},其四分位数极差是:(A)
A 31
B 24
C 55
D 3

19 设X={1,2,3}是频繁项集,则可由X产生(C)个关联规则。
A、4
B、5
C、6
D、7

20 下面选项中t不是s的子序列的是 ( C )
A、s=<{2,4},{3,5,6},{8}> t=<{2},{3,6},{8}>
B、s=<{2,4},{3,5,6},{8}> t=<{2},{8}>
C、s=<{1,2},{3,4}> t=<{1},{2}>
D、s=<{2,4},{2,4}> t=<{2},{4}>

21 以下哪些算法是分类算法,(B)
A,DBSCAN
B,C4.5
C,K-Mean
D,EM

22 以下哪些分类方法可以较好地避免样本的不平衡问题, (A)

A,KNN
B,SVM
C,Bayes
D,神经网络

23 决策树中不包含一下哪种结点, (C)

A,根结点(root node)
B,内部结点(internal node)
C,外部结点(external node)
D,叶结点(leaf node)

24 填空
补全如下代码,调整变量a中第2行和第3行,使这两行交换:

import pandas as pd
dt = {'one': [9, 8, 7, 6], 'two': [3, 2, 1, 0]}
a = pd.DataFrame(dt)
a = a.reindex( _______ = (2, 3))

正确答案:index

25 填空
补全如下代码,对生成的变量a在0轴上进行升序排列。

import pandas as pd
import numpy as np
a = pd.DataFrame(np.arange(20).reshape(4,5), index = ['z', 'w', 'y', 'x'])
a.____________()

正确答案:sort_index

26 填空
补全如下代码,对生成的变量a在第2列上进行数值升序排列。

import pandas as pd
import numpy as np
a = pd.DataFrame(np.arange(20).reshape(4,5), index = ['z', 'w', 'y', 'x'])
a.____________(2)

正确答案:sort_values


二、 多选题

1 对于数据挖掘中的原始数据,存在的问题有: (ABCDE)
A 不一致
B重复
C不完整
D 含噪声
E 维度高

2 下面属于数据集的一般特性的有:( B C D)
A 连续性
B 维度
C 稀疏性
D 分辨率
E 相异性 
       
3 下面属于维归约常用的线性代数技术的有: (A C)
A 主成分分析
B 特征提取
C 奇异值分解
D 特征加权
E 离散化

4 这些数据特性都是对聚类分析具有很强影响的。( ABCD )
A、高维性
B、规模
C、稀疏性
D、噪声和离群点

5 下列属于不同的有序数据的有:(A B C D)
A.时序数据

B.序列数据

C.时间序列数据

D.事务数据

E.空间数据

6 数据预处理方法主要有( ABCD)

A.数据清洗 B.数据集成

C.数据变换 D.数据归约

7 与传统的分布式程序设计相比,Mapreduce封装了 ( ABCD )等细节,还提供了一个简单而强大的接口。

A.并行处理 B.容错处理

C.本地化计算 D.负载均衡


三、 判断题

1 数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成描述数据、预测数据等任务。 (对)

2 数据挖掘的目标不在于数据采集策略,而在于对于已经存在的数据进行模式的发掘。(对)

3 图挖掘技术在社会网络分析中扮演了重要的角色。(对)

4 模式为对数据集的全局性总结,它对整个测量空间的每一点做出描述;模型则对变量变化空间的一个有限区域做出描述。(错)

5 寻找模式和规则主要是对数据进行干扰,使其符合某种规则以及模式。(错)

6 离群点可以是合法的数据对象或者值。    (对)

7 离散属性总是具有有限个值。        (错)

8 噪声和伪像是数据错误这一相同表述的两种叫法。     (错)

9 用于分类的离散化方法之间的根本区别在于是否使用类信息。   (对)

10 特征提取技术并不依赖于特定的领域。      (错)

11序列数据没有时间戳。      (对)

12 定量属性可以是整数值或者是连续值。     (对)

13 可视化技术对于分析的数据类型通常不是专用性的。    (错)

14 DSS主要是基于数据仓库.联机数据分析和数据挖掘技术的应用。(对)

15 OLAP技术侧重于把数据库中的数据进行分析、转换成辅助决策信息,是继数据库技术发展之后迅猛发展起来的一种新技术。 (对)

16 商业智能系统与一般交易系统之间在系统设计上的主要区别在于:后者把结构强加于商务之上,一旦系统设计完毕,其程序和规则不会轻易改变;而前者则是一个学习型系统,能自动适应商务不断变化的要求。 (对)

17 数据仓库中间层OLAP服务器只能采用关系型OLAP (错)

18 数据仓库系统的组成部分包括数据仓库,仓库管理,数据抽取,分析工具等四个部分. (错)

19 Web数据挖掘是通过数据库仲的一些属性来预测另一个属性,它在验证用户提出的假设过程中提取信息. (错)

20 关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。(错)

21 利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数(对)。

22 先验原理可以表述为:如果一个项集是频繁的,那包含它的所有项集也是频繁的。(错)

23 如果规则 不满足置信度阈值,则形如 的规则一定也不满足置信度阈值,其中 是X的子集。(对)

24 具有较高的支持度的项集具有较高的置信度。(错)

25 聚类(clustering)是这样的过程:它找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象类。 (错)

26 分类和回归都可用于预测,分类的输出是离散的类别值,而回归的输出是连续数值。(对)

27 对于SVM分类算法,待分样本集中的大部分样本不是支持向量,移去或者减少这些样本对分类结果没有影响。 (对)

28 Bayes法是一种在已知后验概率与类条件概率的情况下的模式分类方法,待分样本的分类结果取决于各类域中样本的全体。 (错)

29 分类模型的误差大致分为两种:训练误差(training error)和泛化误差(generalization error). (对)

30 在决策树中,随着树中结点数变得太大,即使模型的训练误差还在继续减低,但是检验误差开始增大,这是出现了模型拟合不足的问题。 (错)

31 SVM是这样一个分类器,他寻找具有最小边缘的超平面,因此它也经常被称为最小边缘分类器(minimal margin classifier) (错)

32 在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。(错)

33 聚类分析可以看作是一种非监督的分类。(对)

34 K均值是一种产生划分聚类的基于密度的聚类算法,簇的个数由算法自动地确定。(错)

35 给定由两次运行K均值产生的两个不同的簇集,误差的平方和最大的那个应该被视为较优。(错)

36 基于邻近度的离群点检测方法不能处理具有不同密度区域的数据集。(对)

37 如果一个对象不强属于任何簇,那么该对象是基于聚类的离群点。(对)

38 从点作为个体簇开始,每一步合并两个最接近的簇,这是一种分裂的层次聚类方法。(错)40. DBSCAN是相对抗噪声的,并且能够处理任意形状和大小的簇。(对)


说明:本文是从相关博文的分享总结而来,如有疑问,还望各位同仁与前辈指正。

附作者相关研究:(望多多支持,感激不尽!)
超级热门工具下载!!!
DirectX修复工具V4.1增强版.zip
https://download.csdn.net/download/qq_35778860/76003621
DirectX修复工具V4.1标准版.zip
https://download.csdn.net/download/qq_35778860/76003426
DirectX修复工具V4.1在线修复版.zip
https://download.csdn.net/download/qq_35778860/76003325
周杰伦
周杰伦婚礼歌单 无损mp3歌曲 适用结婚 基础版+完整版
https://download.csdn.net/download/qq_35778860/80045641
Python:
Python实现线性回归、逻辑回归、KNN、SVM、朴素贝叶斯、决策树、K-Means7种机器学习算法的经典案例——亲测可用,链接
https://download.csdn.net/download/qq_35778860/20715889
Python实现飞机大战的完整代码——亲测可用,链接
https://download.csdn.net/download/qq_35778860/57165535
Python爬虫获取豆瓣网评分Top200的电影——亲测可用,链接
https://download.csdn.net/download/qq_35778860/56379309
Python根据下拉选项绘制雷达图和柱形图(异常预控平台)——亲测可用,链接
https://download.csdn.net/download/qq_35778860/20715210
python实现雷达图——亲测可用,链接
https://download.csdn.net/download/qq_35778860/20695215
基于python的北京房屋出租数据可视化分析与3D展示——亲测可用,链接
https://download.csdn.net/download/qq_35778860/20675051
基于Python设计的web接口聊天机器人
https://download.csdn.net/download/qq_35778860/66662593
用Python进行自然语言处理(中文).rar
https://download.csdn.net/download/qq_35778860/63652414
《机器学习实战》全书python代码——很全很完整
https://download.csdn.net/download/qq_35778860/62203534
Python3实现十大排序算法
https://download.csdn.net/download/qq_35778860/61630851
Python学生信息管理系统.zip
https://download.csdn.net/download/qq_35778860/85006851
C#
成绩管理系统(C/S结构的应用系统,含access数据库)——C#实现
https://download.csdn.net/download/qq_35778860/66967387
C#实现学生信息管理系统(包括增删改查功能)——亲测可用
https://download.csdn.net/download/qq_35778860/61620149
Matlab
极限学习机ELM+OSELM+KELM+半监督SSELM+USELM的matlab程序(附完整代码)
https://download.csdn.net/download/qq_35778860/56378533
BP+近邻KNN+LS最小二乘算法的matlab代码——亲测可用(含实例)
https://download.csdn.net/download/qq_35778860/56378309
基于matlab的卷积神经网络实现手写数字识别
https://download.csdn.net/download/qq_35778860/66667747
基于MATLAB的人工蜂群算法
https://download.csdn.net/download/qq_35778860/66665944
利用MATLABsilulink搭建有源电力滤波器仿真.zip
https://download.csdn.net/download/qq_35778860/63659150
动态规划MATLAB程序.zip
https://download.csdn.net/download/qq_35778860/63658838
基于matlab的模式识别基础实例源代码.zip
https://download.csdn.net/download/qq_35778860/63658486
Matlab_动态窗口法实现机器人在障碍环境下的模拟避碰仿真.zip
https://download.csdn.net/download/qq_35778860/63658232
bp神经网络整定pid参数matlab应用程序.rar
https://download.csdn.net/download/qq_35778860/63656174
利用深度学习的matlab程序编码仿真实现图像分割.zip
https://download.csdn.net/download/qq_35778860/63655267
matlab算法神经网络、粒子群算法、遗传算法、蚁群算法.rar
https://download.csdn.net/download/qq_35778860/74976067
Java
基于java的信息管理系统
https://download.csdn.net/download/qq_35778860/66658535
Java swing学生成绩系统(源码+数据库脚本).rar
https://download.csdn.net/download/qq_35778860/63653951
Jsp
jsp学生信息管理系统(源码+数据库脚本).zip
https://download.csdn.net/download/qq_35778860/63653655
SCN
随机配置网络SCN实现的matlab代码——亲测可用
https://download.csdn.net/download/qq_35778860/61636684
BLS
宽度学习BLS的matlab代码+Mnist数据集
https://download.csdn.net/download/qq_35778860/61635045
Mysql
Mysql增删改查代码操作,很全很完整——亲测可用
https://download.csdn.net/download/qq_35778860/61626574
C
基于单片机的交通灯控制系统设计(含代码,原理图)——C语言实现
https://download.csdn.net/download/qq_35778860/60383113
基于单片机的温度控制系统设计代码(含代码,原理图)——C语言实现
https://download.csdn.net/download/qq_35778860/60379923
郭天祥51单片机书中400例程——亲测可用
https://download.csdn.net/download/qq_35778860/58014293
Linux
一篇非常好的linux学习笔记分享(Linux入门绝佳).docx
https://download.csdn.net/download/qq_35778860/75444944
资料类
最全的事业编制考试计算机基础知识试题.doc
https://download.csdn.net/download/qq_35778860/85005561
江苏事业编制计算机类真题+解析.zip
https://download.csdn.net/download/qq_35778860/85005388
CSDN Share:大会PPT合集下载,纯干货!
https://download.csdn.net/download/qq_35778860/81175779
C语言教程基础篇【全免费】.ppt
https://download.csdn.net/download/qq_35778860/75560127
华为云Stack-8.0.pdf
https://download.csdn.net/download/qq_35778860/75445048
C++ 谭浩强(超级完整版).pptx
https://download.csdn.net/download/qq_35778860/74975782
表白类
999度玫瑰的表白程序源代码.zip
https://download.csdn.net/download/qq_35778860/74975889
网红表白程序-你要愿意爱我一辈子吗?
https://download.csdn.net/download/qq_35778860/74975870
Python设计表白神器无法拒绝的爱——亲测可用
https://download.csdn.net/download/qq_35778860/60723376
软件破解注册机
Matlab R2019b Win64 Crack.zip
https://download.csdn.net/download/qq_35778860/58000811
其他
微信转盘抽奖小程序源码.rar
https://download.csdn.net/download/qq_35778860/63652890

  • 19
    点赞
  • 155
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
很抱歉,作为一个 AI,我并没有具备出题和编写代码的能力。不过,我可以为您提供一些参考资料,帮助您自己出一套前端笔试题。 以下是一些可能的题目范例: 1. 请简述 HTML5 新增的语义化标签,并举例说明它们的作用。 答案:HTML5 新增了一些语义化标签,如 `<header>`、`<footer>`、`<nav>`、`<article>`、`<section>` 等。它们的作用是让页面结构更加清晰,便于搜索引擎、屏幕阅读器等工具理解页面内容,也有助于开发者更好地组织页面代码。 2. 请编写一个 JavaScript 函数,判断一个字符串是否是回文字符串。 答案: ```javascript function isPalindrome(str) { return str === str.split('').reverse().join(''); } ``` 3. 请简述 CSS 中的盒模型,并说明 `box-sizing` 属性的作用。 答案:CSS 中的盒模型指的是一个 HTML 元素所占用的空间,包括了内容区域、内边距、边框和外边距。`box-sizing` 属性可以控制盒模型的计算方式,有两个可选值:`content-box` 和 `border-box`。`content-box` 表示元素的宽度和高度只包括内容区域,而 `border-box` 表示元素的宽度和高度包括了内容区域、内边距和边框。 4. 请编写一个 CSS 样式,使得所有 `<a>` 元素在鼠标悬停时背景色变为灰色。 答案: ```css a:hover { background-color: gray; } ``` 5. 请简述 JavaScript 中的事件冒泡和事件捕获,并说明如何阻止事件冒泡传播。 答案:JavaScript 中的事件冒泡指的是事件从子元素依次向上传播到父元素的过程,而事件捕获则是从父元素依次向下捕获到子元素的过程。可以使用 `event.stopPropagation()` 方法阻止事件冒泡传播。 希望这些例子可以帮助您出一套合适的前端笔试题

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

youthlost

您的鼓励是我创作的最大动力!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值