python做面板数据_用Python做数据分析的基本步骤(持续修改更新)

本文介绍了使用Python进行面板数据分析的基本流程,包括环境搭建、数据处理包的导入、数据读取、预览、数据处理和可视化。重点讲解了如何使用numpy、pandas、matplotlib、seaborn等库,以及数据清洗、缺失值处理、日期字段提取和数据可视化的方法,如箱型图、直方图和地图分析。
摘要由CSDN通过智能技术生成

一、环境搭建

数据分析最常见的环境是Anaconda+Jupyter notebook

二、导入包

2.1数据处理包导入

import numpy as np

import pandas as pd

注:numpy是Numerical Python的简称,是一个科学计算的包,可用来矩阵运算,处理线性代数的常见问题。

pandas是panel data和data analysis的组合词,原来是用来处理计量经济学面板数据的工具,可以用来数据对齐、切割、取片、查重、去空等一系列操作。

2.2画图包导入

import matplotlib.pyplot as plt

import missingno as msno

import seaborn as sns

sns.set()

sns.set_style('whitegrid', {'font.sans-serif':['simhei', 'Arial']})

注:matplotlib是常见的绘制图表的工具,seaborn是它的加强版,missingno是缺失值可视化处理的工具,sns.set()设置画图空间为 Seaborn 默认风格。后面的代码为处理中文字体。

2.3日期处理包导入

import calendar

from datetime import datetime

2.4jupyter notebook绘图设置

%matplotlib inline

%config InlineBackend.figure_format="retina"

注:%matplotlib inline是jupyter notebook里的命令,意思是将那些用matplotlib绘制的图显示在页面里而不是弹出一个窗口。

在分辨率较高的屏幕(例如 Retina 显示屏)上,notebook 中的默认图像可能会显得模糊,可用%config InlineBackend.figure_format="retina"来呈现分辨率较高的图片。

三、读取数据

data = pd.read_csv(r"D:\0工作\数据集\train_users_2.csv ")

data = pd.read_excel(r" D:\0工作\excel\6.xlsx ")

注:读取csv格式选第一种,读取excel表选第二种,“”内填文件所在位置。Excel只能存储十万多行数据,而csv(逗号分隔值文件格式)则能存储上亿行数据,所以数据分析中多以csv格式保存数据。

文件地址在文件的属性的对象名称中。

四、数据预览

1.数据集大小

Data.shape #输出列和行

2.查看随便几行或前几行或后几行

data.sample(5)

data.head(5)

data.tail(5)

3.查看数据类型

data.dtypes #会输出字段和字段类型

4.查看数据的数量、无重复值、平均值、最小值、最大值等

data.describe()

data. describe(include='object')

5.查看字段名、类型、空值数为多少

data.info()

五、数据处理

在数据的处理过程中,一般都需要进行数据清洗工作,如数据集是否存在重复,是否存在缺失,数据是否具有完整性和一致性,数据中是否存在异常值等。

1.把需要的字段挑选出来。

data.columns #看一下数据集的所有字段

data.iloc[50] #随便挑一行看看数据的大致情况,以决定取舍哪些字段

sample_data=['city', 'fields.comment', '

  • 4
    点赞
  • 35
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值