1、讀取數據
data=read_csv(path)
data.head()#畫圖(查看class即分類的數據條形圖),函數sort_index()是將dataframe按照行索引來排序輸出值
count_classes=pd.value_counts(data['Class'],sort=True).sort_index()
count_classes.plot(kind='bar')
plt.title("*****")
plt.xlable("class")
plt.ylable("Frequency")
2、認識數據
①數據特征的量綱差距(即歸一化/標准化處理)
from sklearn.processing importStanarScaler#將特征'Amount'歸一化成新的特征'normAmount',這里的reshape函數是將dataframe轉化成array,fit_transform的參數需要是數組。
#fit_transform()是將數據fit再transform,主要作用是將數據標准化成均值為0,方差為1的數,范圍在【-1,1】之間。data['normAmount']=StandarScaler().fit_transform(data['Amount'].reshape(-1,1))#將沒有用的數據特征刪除
data=data.drop('Amount','time')
②數據分布不均衡(比方說分類,0-1分類,0的數據遠遠大於1的數據)
處理方式:下采樣、過采樣。