数据探索-数据特征分析

数据特征分析

对于数据的特征分析是十分重要的,可以让我们更加的了解数据的信息,在下一步的数据分析、数据建模能帮助我们做出更好的决策。同时能给我们在解决问题上提供灵感。

数据特征分析可以分为如下几类
1.分布分析
2对比分析
3.统计量分析
4.周期性分析
5.贡献度分析
6.相关度分析

下面我就来大致介绍一下上面六种特征分析

分布分析:
分布分析要针对两种类型的变量进行不同的处理。
对于定量变量而言,选择”组数“和组宽是做频率分布分析时最重要的问题,一般按照以下步骤进行。
1)求极差
2)决定组距和组数
3)决定分点
4)列出频率分布表
5)绘制频率分布直方图

对于定性变量而言,常常根据变量的分类类型来分组,可以采用饼图和条形图来描述定性变量的分布。

对于定性变量和定量变量这里做一个接单介绍:

定性变量是统计学的概念,又名分类变量 ,观测的个体只能归属于几种互不相容类别中的一种时,一般是用非数字来表达其类别,这样的观测数据称为定性变量。

定量变量 也就是通常所说的连续量,如长度、重量、产量、人口、速度和温度等,它们是由测量或计数、统计所得到的量,这些变量具有数值特征,称为定量变量。

对比分析:

对比分析是指把两个相互联系的指标进行比较,从数量上展示盒说明研究对象规模的大小,水平的高低,速度的快慢,以及各种关系是否协调。特别适用于指标间的横纵向比较、时间序列的比较分析。在对比分析中,选择合适的对比标准是十分关键的步骤,只有选择合适,才能做出客观的评价,选择不合适,评价可能得出错误的结论。

对比分析主要有以下两种形式
(1)绝对数比较
绝对数比较式利用绝对数进行对比,从而寻找差异的一种方法。
(2)相对数比较
相对数比较式由两个有联系的指标对比计算的,用以反映客观现象之间数量联系程度的综合指标,其数值表现为相对数。由于研究目的和对比基础不同,相对数可以分为以下几种。

统计量分析:

用统计指标对定量数据进行统计描述,常从集中趋势和离中趋势两个方面分析。
集中趋势度量指标
平均值,中位数,众数
离中趋势度量指标
极差,标准差,变异系数,四分位间距

周期性分析:

周期性分析是探索某个变量是否随着时间变化而呈现出某种周期变化趋势。时间尺度相对较长的周期性趋势有年度周期性趋势,季节周期性趋势,相对较短的有月度周期性趋势和周度周期性趋势,甚至更短。

贡献度分析:
贡献度分析又称帕累托分析,它的原理是帕累托法则,又称20/80定律。同样的投入放在不同的地方会产生不同的收益。

”相关性分析:

分析连续变量之间的现行相关程度的强弱,并用适当的统计指标表示出来的过程称为相关分析。

可以绘图分析,也可以计算一些衡量相关性的参数,如person系数,Spearman秩相关系数。

这里先大致介绍一下,以后我还会详细介绍这部分内容。

  • 4
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Python是一种非常适合网络爬虫和数据处理的编程语言,可以利用Python编写爬虫程序来获取各种网站上的数据。在获取数据后,可以使用Python的各种数据处理和数据可视化工具进行探索数据分析。 以下是一些常用的Python数据处理和数据可视化库和工具: 1. Pandas:一个强大的数据处理库,可以使用它来读取、处理和分析数据。 2. NumPy:一个用于数值计算的Python库,可以用来处理数值型数据。 3. Matplotlib:一个用于创建各种类型图形的数据可视化工具。 4. Seaborn:一个用于创建统计图形的数据可视化工具,可以创建各种热力图、箱形图、散点图等。 5. Scikit-learn:一个用于机器学习的Python库,可以用来进行数据挖掘和建立预测模型。 在使用Python进行数据探索分析时,一般的步骤包括: 1. 数据获取:通过Python编写爬虫程序或者读取本地文件等方式获取数据。 2. 数据清洗:清除数据中的错误、缺失值和重复数据等。 3. 数据预处理:对数据进行转换、归一化等操作,以便于后续的分析。 4. 数据分析:使用Python的数据处理和数据可视化库对数据进行探索性分析,例如统计描述、数据可视化、特征选择等。 5. 建立模型:使用Python的机器学习库建立预测模型,例如线性回归、决策树、支持向量机等。 6. 模型评估:评估预测模型的性能,例如计算准确率、精确率、召回率等。 7. 结论和报告:根据数据分析和模型评估的结果,得出结论和建议,撰写报告或者进行可视化展示。 总之,Python是一种非常强大的数据处理和数据分析工具,可以用来进行各种类型的数据探索分析。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值