数据预处理(分享一波考试大题和填空题)

数据预处理
1.什么是数据预处理:从初始数据到得出分析或挖掘结果的整个过程中对数据经过的一系列操作称为数据预处理。
2.常见的数据问题:数据缺失,数据重复,数据异常,数据冗余,数据值冲突,数据噪声
3.数据预处理的流程:初始数据获取,数据清理,数据集成,数据变换,数据规约
4.大数据项目开发流程:数据采集,数据预处理,数据存储,数据分析挖掘,数据可视化
5.数据质量问题:准确性,相关性,完整性,时效性,一致性,可信性可解释性
6.数据是正确的,造成不准确的原因:数据收集设备故障、数据输入错误、数据传输过程出错、命名约定、数据代码、输入字段的格式不一致。
7.有空值,一般记录的缺失和记录属性的缺失:涉及个人隐私,无法获取相关属性、数据输入认为疏漏导致、数据输入或传输时,由于机器的故障导致。
8可信可解释性:可信性:数据来源的权威、数据的规范性、数据产生的时间。可解释性:反映数据是否容易理解。
9.数据预处理的目的:A. 清理“脏”数据B. 抽取精准的数据C. 调整数据格式D. 尽可能的简化数据E. 提高数据质量
10.大数据项目开发流程:数据采集,数据预处理,数据存储,数据分析挖掘,数据可视化
11.引起噪声数据的原因:数据收集工具的问题,数据输入错误,数据传输错误,技术的限制,命名规则不一致
12.噪声处理的方法:分箱法、回归、聚类
13.信息孤岛:指不同软件间,尤其是不同部门间的数据信息不能共享,造成系统中存在大量
14.冗余数据,垃圾数据,无法保证数据的一致性。
15.数据集成的定义:将互相关联的分布式异构数据源集成到一起,使用户能够以透明化的方式访问这些数据源。
15.数据集成的方法:1.联邦数据库:将各数据源的数据视图集成为全局模式2.中间件继承:通过统一的全局数据模型来访问异构的数据源3.数据复制:将各个数据源的数据复制到同一处,即数据仓库
16.集成过程中需要处理的问题:实体识别,冗余与相关分析,数据冲突和检测
17.数据规约的目的:用于帮助从原有庞大数据集中获得一个精简的数据集合,并使这一精简数据集保持原有数据集的完整性,这样在精简数据集上进行数据挖掘显然效率更高,并且挖掘出来的结果与使用原有数据集所获得结果是基本相同
18.数据归约:(1)维归约:主成分分析称为主量分析,旨在利用降维的思想,(2)数量归约:通过选择代替的,较小的数据表示形式来减少数据量,两种方法:有参方法:回归和对数的线性模型和无参方法:直方图。(3)数据压缩
19.聚类:将原数据集划分成多个群或聚类聚类算法:K均值方法、层次聚类方法、基于密度聚类方法
20.取样方法:不放回简单随机取样、放回简单随机取样、聚类取样:先聚类,后取样、分层取样:先分层,后取样。
21.数据变换的目的:将数据转换或统一成易于进行数据挖掘的数据存储形式,使得挖掘过程可能更有效。
22.方法策略:光滑:去掉数据中的噪音;属性构造:由给定的属性构造新的属性并添加到属性集中,帮助数据分析和挖掘;聚集:对数据进行汇总或聚集;规范化:将属性数据按比例缩放,使之落入一个小的特定区间;离散化:数值属性用区间标签或概念标签替换;由标称数据产生概念分层:属性,如street,可以泛化到较高的概念曾,如city或country
23.规范化常用的算法:最小-最大规范化;零-均值规范化(z-score规范化)v=;小数定标规范化v=。
24.数据预处理工具-Kettle开源,且支持可视化编码;支持各种数据源;数据处理功能很强大。
25.什么是信息孤岛?
指不同软件间,尤其是不同部门间的数据信息不能共享,造成系统中存在大量冗余数据、垃圾数据,无法保证数据的一致性。
26.什么是数据预处理?
从初始数据到得出分析或挖掘结果的整个过程中对数据经过的一系列操作称为数据预处理。
27.什么是广播机制?
形状不同的数组之间进行运算会触发广播机制。广播机制指对形状较小的数组进行扩展,以匹配另一个形状较大的数组的形状,进而变成执行形状相同的数组间运算。
28.简述Series与DataFrame的特点。
Series是一个结构类似于一维数组的对象,该对象主要由索引数据和索引两部分组成,其中数据可以是任意类型,比如整数、字符串、浮点数等。
DataFrame是一个结构类似于二维数组或表格的对象,与Series类对象相比,DataFrame类对象也由索引和数据组成,但该对象有两组索引,分别是行索引和列索引。
29.简述数据集成、变换与规约的意义。
数据集成、数据变换或数据规约的过程,是整合多渠道的数据、转换数据的形式或筛选与目标有关的数据,以符合分析或挖掘的需求,提高分析或挖掘的效率。
30.简述数据集成、变换与规约的意义。
数据集成、数据变换或数据规约的过程,是整合多渠道的数据、转换数据的形式或筛选与目标有关的数据,以符合分析或挖掘的需求,提高分析或挖掘的效率。


Numpy中的_ndarray__对象是一个N维数组对象。
形状不同的数组之间进行运算会触发_广播_机制。
花式索引是指以整数组成的_数组_或_列表为索引。
常见的数组转置方法有(1) T属性 (2) transpose()(3) swapaxes()
Series_类对象的结构类似于一维数组,_ DataFrame_类对象是一个结构类似于二位数组或表格的对象。
Series类对象主要由_ 数据_和_索引_两部分组成。
pandas中可以按照__索引和__值_两种方式排列数据。
pandas中的索引都是_index类的子类。
pandas中常见的单层索引方法有哪些?(1) [] (2) loc (3) iloc (4) at (5) iat
read_csv()函数用于读取__CSV_和__TXT文件中的数据。
pandas中使用_read_excel()函数读取Excel文件中的数据。
读取函数时,使用__encoding参数来指定编码格式。
read_excel()函数读取文件时,_ sheet_name数可以指定读取工作表。
使用read_excel()函数时,如果出现import error或Missing optional dependency。
说明当前环境缺少读取Excel文件的依赖库_xlrd。
手动安装此库的方法是__pip install xlrd_。
如果安装完,执行时出现了Excel xlsx file; not supported的报错。
可以安装__ openpyxl库,并在read_excel()里加入参数_engine='openpyxl'__来读取xlsx文件。
使用read_html()函数只能读取网页中的_ 表格_数据。
python-docx库的_Table对应word文件的表格结构,_Document类对象相当于word文件。
读取数据库数据时,常用的三个函数分别是read_sql_table()__,_read_sql_query()_和_read_sql()。
读取PDF文件需要_pdfplumber库。
读取PDF文件时,使用_Page属性来读取页。
其中,常用的方法有:
_extract_words()_,提取页面中所有单词及相关信息。
extract_text()_,提取页面中所有文本数据和表格数据。
_extract_tables()_,提取页面中的表格数据。
常见的数据问题有3种:数据缺失,数据重复和数据异常。
它们分别是因为数据中存在:_缺失值_,__重复值__,_异常值__。
缺失值的检查方法包括:isnull_,_notnull_,_isna_,_notna。
重复值产生的主要原因有_人工录入__和__机械故障_.
删除、填充、插补缺失值的函数分别是dropna()__、_fillna()_、 interpolate()__。
检查重复值和删除重复值的函数分别是__duplicated()_、_drop_duplicates()__。
填充缺失值fillna()中method参数可以设置填充方向。
取缺失值前面的值对缺失值进行填充对应的代码是method='pad__';
取缺失值后面的值对缺失值进行填充对应的代码是method='__backfill'。
插补缺失值interpolate()函数中的参数method='______'有6种取值,分别是。(1) linear (2) time(3) index (4) values (5) nearest (6) barycentric
异常值分为_真异常__和___假异常__。
3σ准则(拉依达准则)只适用于检测符合或近似符合__正态分布_的数据集。
箱形图通常又上边缘、_上四位数___、___中位数_、_下四位数_、下边缘和__异常值_构成。
数据集成过程中,可能出现的问题有__ 实体识别__、___冗余属性识别_、_元组重复__、_数据值冲突__。
实体识别中常见的矛盾有:__同名异义_、__异名同义__、单位不统一___。
写出2个常见的合并数据的函数。(1) merge() (2) join()
主键合并数据需要指定一个或多个__键_来对两组数据进行连接;
)merge()函数支持4种连接合并方式,即内连接、左外连接、右外连接和全外连接。它们对应的参数设置分别是how='___inner___',how='__ left__',how='__right_',how='__outer__'。
数据变换的常见操作有数据标准化处理__、_数据离散化处理__、_数据泛化处理__。
在pandas中DataFrame类对象可以使用_pivot()___或_melt()方法实现轴向旋转操作。
分组和聚合的操作大致分为三个步骤:(1) 拆分 (2) 应用 (3) 合并
聚合操作除了内置的统计方法外,还可以使用__agg()__、_tranform()___、___apply()__方法。
哑变量又称虚拟变量,是__人为虚设__的变量,用来反映某个变量的__不同类别__。
)面元划分中,默认划分的区间是__后_闭__前开的。
降采样常见于___时间序列__类型的数据。


 

  • 6
    点赞
  • 100
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

刘新源870

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值