1.二值属性转换为BOOL类型方法:y = 1 * (df.col_name == "attri_value") 返回的为df,且其中元素等于"attri_value"的为True,另一个值为False。
2.统计df中每个特征取值的分布:df.column_name.value_counts().
3.
样本标准偏差
,
代表所采用的样本X1,X2,...,Xn的均值。
总体标准偏差
,
代表总体X的均值。
4.
dataframe一列变多列,其中用空格作分隔符
** table['address'].str.split(r' ',expand=True)**
用pd.concat把多列加回table,命名新的两列Province, City
合起来就是
** pd.concat([table,table['address'].str.split(r' ',expand=True)],axis=1,names=['Province','City'])**