python 散点图中间加一条数据平均值_数据分析(一)理解数据

前言

机器学习项目流程中,数据分析与处理属于建模前期阶段,在定义y和确认X后,就需要开始数据分析和处理的工作。

数据分析:亦称数据探索性分析,目的是了解数据全貌,包括数据概览、可能的错误、基本特征、数据结构和数据相互关系、潜在模式并以简单而直观的指标或图形呈现。数据分析是一个重要的步骤,它通过数理统计、可视化等手段探索数据的结构和规律,提供了开发模型并正确解释其结果所需的来龙去脉。通过数据分析方法建立对数据的直觉,如果发现数据不太合乎常理且需要对这些异常数据进行核实,那么一定要确保数据的正确性。如果数据的异常或者错误被忽视,可能会导致业务基于错误的数据做出决策对公司造成资产损失。

数据处理:根据数据探索性分析得到需要清洗和处理的变量,主要是缺失值、异常值处理和数学变换。数学变换会在第6章进行详细介绍,本章将主要介绍缺失值、异常值的检测和处理。

在介绍数据分析方法之前,先了解一下变量大致有哪些类型。

变量的类型

每个变量都有变量的值和变量的类型,日常统计中使用的特征变量(variables)大致可以分为数值变量(numerical)和分类变量(categorical)。数值型变量是由测量或计数、统计所得到的值,这些值对于加、减、求均值等运算操作是有意义的,而分类变量对于上述的操作是没有意义的。数值变量又可以分为如下两类:

  1. 离散型变量(discrete):离散型变量的数值只能用自然数或整数单位计算,其数值是间断的,相邻两个数值之间不再有其他数值,这种变量的数值一般用计数方法取得,如一棵果树上结了多少个果实。
  2. 连续型变量(continuous):连续型变量的数值在一定区间内可以任意取值,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值,如果树上果实的重量。

分类变量又可以分为如下两类:

  1. 有序分类变量(ordinal):描述事物等级或顺序,变量值可以是数值型或字符型,也可以进而比较差别程度,比如疗效按治愈、显效、好转、无效分类;
  2. 无序分类变量(nominal):是指所分类别或属性之间无程度和顺序的差别。它又可进行二项分类,如性别(男、女)、药物反应(阴性和阳性)等;多项分类,如血型(O、A、B、AB)、职业(工、农、商、学、兵)等;

有序分类变量和无序分类变量的区别是:前者对于“比较”操作是有意义的,而后者对于“比较”操作是没有意义的。如下图示描述了它们之间的关系。

4cc8994653c7d12be4921cd9d7252903.png

除了刚刚介绍统计相关的变量,日常工作中遇到的变量还有其他的类型。

Boolean Variable (布尔型变量) 是有两种逻辑状态的变量,包含两个值:真和假。如果在表达式中使用了布尔型变量,那么将根据变量值的真假而赋予整型值1或0,反之亦然。

日期和时间型变量,一般在数据库常见的是datetime,存储格式为“YYYY-MM-DD HH:mm:ss”,其中YYYY代表年、MM表示月份、DD表示日期、HH代表小时、mm代表分钟、ss代表秒。

常用分析方法

本节将介绍变量的常用分析方法和可视化。可视化借助常用的Matplotlib、Seaborn和pandas.DataFrame.plot工具实现。

  • Matplotlib是一个常用的Python绘图库。使用者仅需要几行代码,便可以绘制直方图、条形图、散点图以及其他更复杂的图形等,是下面两类方法的基础。
  • Seaborn在Matplotlib 的基础上进行了API封装,从而使作图更加容易,在大多数情况下使用Seaborn就能做出很具有吸引力的图。
  • Pandas内置了plot等绘图API,使得数据分析和可视化能协同进行,该方法底层默认调用matplotlib的接口。

进行数据可视化时建议优先选择Seaborn和pandas.DataFrame.plot,如需绘制更复杂图形的时候再考虑使用Matplotlib。

整体数据概览

数据分析的第一步:了解数据全貌。Pandas中支持快速查看数据概览

导入相关的包和加载示例数据

import pandas as pd
import numpy as np
import seaborn as sns 
import matplotlib.pyplot as plt
#seaborn里有数据集,可以直接加载使用
titanic_df = sns.load_dataset('titanic')
#查看前5条的数据
titanic_df.head() 
f2b874ed75d0536877838210fe2faea1.png

查看数据量和概览

print(titanic_df.shape)
#输出 (891,15)
#查看DataFrame的基本信息&#
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值