数据集介绍:数据集包含欧洲持卡人于2013年9月通过信用卡进行的交易。数据集提供两天内的交易数据,在284,807笔交易中有492起欺诈行为。数据集非常不平衡,正面类别(欺诈)占所有交易的0.172%。数据经过脱敏处理,V1~V28是主成分,Time是每次交易与第一次交易之间距离的时间,单位为秒。Amount代表消费金额,Class为因变量,1表示欺诈,0表示正常。
1.使用pandas读取csv文件
import pandas as pd
df = pd.read_csv('/root/experiment/datas/creditcard.csv')
df.shape
2.查看数据的随机五项
df.sample(5)
3.查看缺失值
df.isnull().sum().sum()
4.查看因变量分布,因变量极不平衡
import matplotlib.pyplot as plt
import seaborn as sns
sns.countplot(x='Class', data=df)
plt.show()