数据分析测试题

插眼
数据分析基础理论测试题

1.同比与环比表示什么

同比:本期与同期做对比   比如:2010年的12月份 与今年的12月份进行比较
环比:本期与上期做对比   比如:2020年2月份 与 2020年1月份

2.阐述一个数据分析的主要流程

1.从数据源中随机抽取数据 进行缺失值和异常值的分析 进行数据清洗 属性规约 数据变换 构建模型
2.将新的数据 进行分析和规约 变换之后放入 建立好的模型中 得出预测的结果

3.如何进行异常值处理

3σ原则  (三个标准差)
箱型图分析:在上四分位数和下四分位数之间的数据为正常的数据

4.什么是数据规约?如何进行数据规约

描述:在庞大的数据集中进行复杂的数据分析和数据挖掘需要大量的时间,数据规约产生更小并且数据完整的新的数据集。那么使用这些已经进行规约的数据时效率会更高。
属性规约
	属性规约的方法:
		合并属性
		逐步向前选择
		逐步向后删除
		决策树归纳
		主成分析
数值规约
	数值规约是指 通过选择代替,较小的数据来减少数据量,包括有参数方法和无参数方法。
	有参数方法:是使用一个模型来评估数据,只需要存放参数,而不需要存放实际的数据
	如:回归(线性回归和多元回归)和对数线性模型
无参数的方法就需要存放实际的数据
	如:直方图 聚类 抽样

5.pandas如何进行两个表的合并?内连接、外连接、左连接、右连接查询有什么区别

使用merge的方式进行合并
inner

·求两个表的交集,连接条件必须完全符合。不符合的数据全部删除 内连接
outter
求两个表的并集,连接条件完全符合的正常显示,不符合的补NaN 外连接
left,左表有的数据全部保留,连接条件符合的正常显示,不符合的补充 NaN,右表不符合连接条件的全部删除
right
右表有的数据全部保留,连接条件符合的正常显示,不符合的补充NaN,左表不符合连接条件的全部删除
代码实现

import pandas as pd
import numpy as np
import sqlite3
# 创建一个数据
left = pd.DataFrame({
   
  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值