文中主要使用Python的第三方包Pandas和Numpy进行分析。
首先,说一下数据分析步骤:
提出问题→理解数据→数据清洗→构建模型→数据可视化
一、提出问题
- 平均每月会收到多少条投诉数据?
- 投诉最多的是哪一种金融产品?
- 有多少条投诉未及时回复?
- 投诉最多和投诉最少的公司?
- 投诉途径主要有哪些?
二、理解数据
文中数据是美国消费者对金融公司的产品和服务的投诉。
- 数据来源:
kaggle.com/cfpb/us-cons
- 字段含义(18个字段名)
1.读取数据
#导入Pandas包,读取excel数据
import pandas as pd
filename='E:myselfconsumer_complaints.xlsx'
df=pd.read_excel(filename)
另一种读取方法如下:
import pandas as pd
filename='E:myselfconsumer_complaints.xlsx'
df=pd.read_excel(filename)
2.行列数
df.shape
3.每一列的数据类型
df.dtypes