答案答案答案答案

1.下列关于为什么要做数据清理描述错误的是( D )

A. 数据有重复

B. 数据有错误

C. 数据有缺失

D. 数据量太大

2.下面哪个属性不是NumPy中数组的属性(    )。   

A.ndim B.size C.shape D.add

3.一个简单的Series是由(    )的数据组成的。  

A.两个数组 B.三个数组 C.一个数组 D.四个数组

4. 在pandas中以下哪个方法用于实现去除重复数据?(    )         

A. join() B. drop_duplicates()

C. count() D.drop_duplicated()

5.在NumPy 模块中,以下哪个函数不是算数函数?(    )      

A. subtract() B. divide()

C. hypot() D.sum()

6.数据集成的过程中需要处理的问题有( )

A、实体识别 B、冗余与相关性分析。

C、数据冲突和检测 D、 以上都是

7.以下哪个函数用于绘制折线图?(    )     

A. scatter()   B. plot() C. pie()        D.hist()

8. 以下说法错误的是(   ) 

A. 主成分分析、属性子集选择为维归约方法. 

B. 直方图、聚类、抽样和数据立方体聚集为数量归约方法。 

C.  用于规约的时间可以超过或抵消在规约后的数据上挖掘节省的时间。

D. 数据归约的目的用于帮助从原有庞大数据集中获得一个精简的数据集合,并使这一精简数据集保持原有数据集的完整性,这样在精简数据集上进行数据挖掘显然效率更高,并且挖掘出来的结果与使用原有数据集所获得结果是基本相同。

9. 处理噪声的方法一般有( ) 

A. 分箱           B.  回归       C.  聚类       D.  以上都是

10. 在数据预处理阶段,数据类型被统一,使得挖掘过程可能更有效,挖掘的模式可能更容易理解,这个过程被称为?( )

A.数据清理    B.数据集成    C.数据规约     D.数据变换

11.在pandas中以下哪个方法用于向csv文件中实现写入工作?(    )  

A. to_excel()

B. read_csv()

C. to_csv()

D.read_excel()

12.下列选项中,描述正确的是( )。

A. 任何数据均可以使用3σ原则检测异常值

B. 异常值只在箱形图下边缘以外的位置出现

C. 任何数据均可以使用箱形图检测异常值

D. 箱形图中异常值范围Q1 – 1.5IQR或小于Q3 + 1.5IQR

13. 下列方法中,可实现降采样操作的是( )

A. resample()       B. stack()        C. cut ()      D. get_dummies()

14. 下列选项中,关于OpenRefine描述正确的是( )

A. OpenRefine仅支持Windows系统

B. OpenRefine不支持中文

C. 运行OpenRefine不需要任何依赖环境

D. OpenRefine支持从本地、指定网址以及数据库中导入数据

15.下列选项中,支持高维度数组与矩阵运算的是( )。

A. NumPy   B. Pandas        C. Scipy          D. Scikit-learn

16.以下(    )函数可以在绘制图表时,设置x轴的名称。                     

A. xlim() B. xlabel()

C. xticks() D.ylabel()

填空题

1.pandas提供了三个函数用于实现数据库信息的读取操作分别是_________、_________、_________

2. Pandas提供了两种主要数据结构_______和_______

3.大数据预处理的方法主要包括_________、_________、_________、_________

4.插补缺失值是通过_______填充缺失值

5.  Series对象主要由_______和_______ 组成

6. 数据清理过程中常遇到的数据问题有缺失、_______和_______。

7. 插补缺失值是通过_______填充缺失值

8. 降采样是将高频率采集的数据规约到_______采集的数据的操作。

9.聚合指任何能从分组数据生成_______的变换过程。

10.pdfplumber库通过_______对象可以获取PDF文件中的每一页实例

答案:

  1. read_sql_query()函数、read_sql_table()函数、read_sql()函数

2. Series 、DataFrame

3.数据清洗   数据集成、数据变换、数据规约

4. 插补算法

5.索引 、数据   

6.数据重复 、 数据异常

7.插补算法

8.低频率

9.标量值

10.Page

判断题

1. read_csv()函数读取的数据会以二维数组形式显示。( )

2. Pandas不能读取JSON数据。( )

3. 在创建DataFrame时,如果columns参数中指定的列不存在,那么创建的DataFrame对象中的对应列值均为NaN,表示一个不可用的值。(      )

4. Series对象不存在分层索引。( )

5. cut ()函数会采用等频法对连续型数据进行离散化处理。( )

6. read_csv()函数读取的数据会以二维数组形式显示。( )

7. Pandas不能读取JSON数据。( )

  1. 正确。read_csv()函数读取的数据会以二维数组形式显示。
  2. 错误。Pandas可以读取JSON数据,使用read_json()函数即可。
  3. 正确。在创建DataFrame时,如果columns参数中指定的列不存在,那么创建的DataFrame对象中的对应列值均为NaN,表示一个不可用的值。
  4. 正确。Series对象不存在分层索引。
  5. 错误。cut ()函数会采用等宽法对连续型数据进行离散化处理,而不是等频法。
  6. 正确。read_csv()函数读取的数据会以二维数组形式显示。
  7. 错误。Pandas可以读取JSON数据,使用read_json()函数即可。

简答题

  1. 简述数据清理中常见的数据问题以及如何处理

数据清理中常见的数据问题包括缺失值、重复数据、异常值等。对于缺失值,可以通过删除缺失值、填充缺失值或插值法进行处理;对于重复数据,可以通过去除重复数据或合并重复数据进行处理;对于异常值,可以通过识别异常值、删除异常值或修正异常值进行处理。

2. 请简述分组与聚合的过程

分组和聚合是数据分析和数据挖掘中常用的操作之一。分组是将数据按照一定的规则划分为若干个组别,每个组别包含一组数据。聚合则是对每个组别的数据进行聚合计算,例如求平均值、最大值、最小值等。

编程题

1. 创建一个代表国际象棋棋盘的10*10数组,其中棋盘的白格用2填充,棋盘黑格用1填充。

import numpy as np

a = np.ones((10,10))
a[0::2,::2]=2
a[1::2,1::2]=2
print(a)

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值