![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据分析
方不正圆
努力学习中。。。
展开
-
特征工程 处理类别类型特征 One-Hot Encoding 和LabelEncoder 区别
LabelEncoder可以将[中国,美国,日本]转化为[0,1,2],但这样会出现一个问题:中国和日本的平均会等于日本。 决策树、随机森林算法等可以直接处理这样的类别类型特征,并且这种方法使用的特征空间很少。 One-Hot Encoding优势很明显,更容易被机器所正确理解,但高维度是个严重的问题,对于类别值多的特征来说更为突出,模型会变得复杂,且可能会影响到准确率,对于这种情况,可以在使用o...原创 2018-11-24 16:49:46 · 1727 阅读 · 0 评论 -
数据分析 kaggle 天池 竞赛常用函数整理
// 显示数据的缺失程度 def miss_value_table(df): mis_val = df.isnull().sum() mis_val_percent = 100*(mis_val/len(df)) mis_val_t = pd.concat([mis_val,mis_val_percent],axis=1) mis_val_table = mis_v...原创 2019-02-16 16:45:41 · 937 阅读 · 0 评论