插眼
数据分析基础理论测试题
1.同比与环比表示什么
同比:本期与同期做对比 比如:2010年的12月份 与今年的12月份进行比较
环比:本期与上期做对比 比如:2020年2月份 与 2020年1月份
2.阐述一个数据分析的主要流程
1.从数据源中随机抽取数据 进行缺失值和异常值的分析 进行数据清洗 属性规约 数据变换 构建模型
2.将新的数据 进行分析和规约 变换之后放入 建立好的模型中 得出预测的结果
3.如何进行异常值处理
3σ原则 (三个标准差)
箱型图分析:在上四分位数和下四分位数之间的数据为正常的数据
4.什么是数据规约?如何进行数据规约
描述:在庞大的数据集中进行复杂的数据分析和数据挖掘需要大量的时间,数据规约产生更小并且数据完整的新的数据集。那么使用这些已经进行规约的数据时效率会更高。
属性规约
属性规约的方法:
合并属性
逐步向前选择
逐步向后删除
决策树归纳
主成分析
数值规约
数值规约是指 通过选择代替,较小的数据来减少数据量,包括有参数方法和无参数方法。
有参数方法:是使用一个模型来评估数据,只需要存放参数,而不需要存放实际的数据
如:回归(线性回归和多元回归)和对数线性模型
无参数的方法就需要存放实际的数据
如:直方图 聚类 抽样
5.pandas如何进行两个表的合并?内连接、外连接、左连接、右连接查询有什么区别
使用merge的方式进行合并
inner
·求两个表的交集,连接条件必须完全符合。不符合的数据全部删除 内连接
outter
求两个表的并集,连接条件完全符合的正常显示,不符合的补NaN 外连接
left,左表有的数据全部保留,连接条件符合的正常显示,不符合的补充 NaN,右表不符合连接条件的全部删除
right
右表有的数据全部保留,连接条件符合的正常显示,不符合的补充NaN,左表不符合连接条件的全部删除
代码实现
import pandas as pd
import numpy as np
import sqlite3
# 创建一个数据
left = pd.DataFrame({