关于StandardScaler
作用:去均值和方差归一化。
Tips:是针对特征维度来做的,不是针对样本,即对列处理而非行处理。
并非所有特征都适合做列的Z-score标准化,或者是说不能直接做列标准化。比如类MINIST,如果图片非常暗,zscore会激活全部像素,导致分类失败。又如简单的推荐系统,zscore会导致活跃用户的画像特征非常高,低活用户画像特征非常低。
关于classification_report
classification_report(test_y,predict_y)
precision recall f1-score support
class 0 0.50 1.00 0.67 1
class 1 0.00 0.00 0.00 1
class 2 1.00 0.67 0.80 3
avg / total 0.70 0.60 0.61 5
作用:显示准召率及F值。
Tips:分类问题中,准召率会受到样本正负样本比的影响,导致评价不客观不直观。
因此,使用AUC评价更为合适,roc_auc_score。
关于LogisticRegression
作用:略
Tips:lr并非只是lr.fit(train_x, train_y),实际有很多参数,如下:
def __init__(self, penalty='l2', dual=False, tol=1e-4, C=1.0,
fit_intercept=True, intercept_scaling=1, class_weight=None,
random_state=None, solver='liblinear', max_iter=100,
multi_class='ovr', verbose=0, warm_start=False, n_jobs=1)