数据分析方法(一)|认知数据

在进行数据分析时,很多人拿到数据之后没有头绪,在没有需求的情况下不知道从何做起,此时我们不妨先动起脑来理解数据。

分析数据之前,清晰的认识数据是非常重要的,通常我们可以从以下几个角度对数据进行深入了解:

一、数据来源

  • 数据的来源多种多样,可以是系统自动收集的数据、人工填写的数据、爬取到的数据等等。不同来源的数据所带来的未知风险是不同的,例如在多数分析师的认知里,系统自动收集的数据要比人工填写的数据更可靠。了解数据来源能让我们更好的预知风险。

二、数据类型(基本信息)

  • 很多人在进行数据分析之前不会留意数据类型,这就导致在随后的数据分析中总遇到一些奇怪的问题:
    • 数字计算出错(计算数据为字符数据)
    • 日期筛选出错(日期列不为时间类型)
  • 这些看似简单的问题,往往在我们后知后觉时消耗大量的时间。在Python中我们可以使用info函数进行快速的数据类型查看,同时也可以认知每列数据缺失值的数量。示例如下:
import pandas as pd

df = pd.read_excel('test_data.xlsx')
df.info()

在这里插入图片描述

三、数据分布(统计信息)

  • 了解完了数据来源和数据类型,我们就算时了解完了数据的外壳,接下来我们需要继续了解数据的内核——数据分布。
  • 了解数据分布通常都是在观察数值类型数据的统计信息,我们通过对数值型数据的均值、分位数、标准差等统计数据进行观测,便能很好的理解各列数据的大小关系及分布情况。
  • 在Python中我们可以使用describe函数直接对数值型数据的分布情况进行查看,示例如下:
import pandas as pd

df = pd.read_excel('test_data.xlsx')
df.describe()

在这里插入图片描述

通过上述结果,我们不难看出当前分析的销售数据中多数订单及整体利润都是盈利状态,这样的认知将会有利于我们后续的深度分析。

四、数据可视化(可选)

  • 为了能更直观的在准备阶段观测数据,我们可以绘制数据图看一下,但不要耗费过多的时间,选择简洁明了的图形即可(给自己看的);当我们能够通过数据表快速了解数据全貌之后,也就不必再花时间通过绘图认知数据了。

Python绘图方法大全:点击这里

  • 7
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

二哥不像程序员

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值