特征工程
肯德基套餐
这个作者很懒,什么都没留下…
展开
-
pandas factorize将字符串特征转化为数字特征
将原始数据中的字符串特征转化为模型可以识别的数字特征可是使用pandas自带的factorzie方法。原始数据的job特征值如下都是字符串特征,无法用于训练,当然可以单独建立map硬编码处理,但是pandas已经封装好了相应的方法。data = pd.read_csv("data/test_set.csv")data["job"] = pd.factorize(data["job"原创 2019-01-04 08:46:11 · 9193 阅读 · 6 评论 -
使用LabelEncoder对特征进行硬编码
对特征进行硬编码不仅可以使用pandas的 factorize函数将文本特征进行编号,也可以使用sklearn 的LabelEncoder函数,两者的效果几乎是一样的。编码为0~n-1(n为种类数)data = pd.read_csv(pathUtils.train_path,engine='python')encoder= LabelEncoder().fit(data["job"])da...原创 2019-01-09 14:50:23 · 14322 阅读 · 5 评论 -
缺失值的发现与处理
机器学习中缺失值处理小记。样例采用的是kaggle 泰坦尼克号数据。发现缺失值使用pandas统计data = pd.read_csv(pathUtil.train_path)print(data.isnull().sum())==>PassengerId 0Survived 0Pclass 0Name ...原创 2019-01-15 22:29:04 · 869 阅读 · 0 评论