python解决pandas处理缺失值为空字符串

踩坑记录:


用pandas来做csv的缺失值处理时候发现奇怪BUG,就是excel打开csv文件,明明有的格子没有任何东西,当然,我就想到用pandas的dropna()或者fillna()来处理缺失值。但是pandas读取csv文件后发现那个空的地方isnull()竟然是false,就是说那个地方有东西。。。后来经过排查发现看似什么都没有的地方有空字符串,故pandas认为那儿不是缺失值,所以就不能用dropna()或者fillna()来处理。


解决思路:先用正则将空格匹配出来,然后全部替换为NULL,再在用pandas读取csv时候指定 read_csv(na_values='NULL')就是将NULL认为是nan处理,接下来就可以用dropna()或者fillna()来处理了

  • 7
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 6
    评论
在使用决策树进行分类或回归时,处理缺失值字符串通常有以下几种方法: 1. 缺失值处理 - 删除缺失值:可以使用 `pandas` 库的 `dropna()` 函数删除缺失值,但这会导致数据集的样本量减少。 ```python import pandas as pd from sklearn.tree import DecisionTreeClassifier # 加载数据集 data = pd.read_csv('data.csv') # 删除缺失值 data.dropna(inplace=True) # 分离特征和标签 X = data.drop('label', axis=1) y = data['label'] # 训练模型 clf = DecisionTreeClassifier() clf.fit(X, y) ``` - 填充缺失值:可以使用 `pandas` 库的 `fillna()` 函数或 `sklearn` 库的 `SimpleImputer` 类填充缺失值。其中,`fillna()` 函数可以使用指定的值或者均值、中位数等填充缺失值;`SimpleImputer` 类可以使用均值、中位数、众数等填充缺失值。 ```python import pandas as pd from sklearn.tree import DecisionTreeClassifier from sklearn.impute import SimpleImputer # 加载数据集 data = pd.read_csv('data.csv') # 填充缺失值 # 使用指定的值填充 # data.fillna(value=0, inplace=True) # 使用均值填充 # imp = SimpleImputer(strategy='mean') # data = imp.fit_transform(data) # 分离特征和标签 X = data.drop('label', axis=1) y = data['label'] # 训练模型 clf = DecisionTreeClassifier() clf.fit(X, y) ``` 2. 字符串处理 对于字符串类型的特征,可以使用 One-Hot 编码或者标签编码将其转换为数值型特征。 - One-Hot 编码:使用 `pandas` 库的 `get_dummies()` 函数将字符串类型的特征转换为数值型特征。 ```python import pandas as pd from sklearn.tree import DecisionTreeClassifier # 加载数据集 data = pd.read_csv('data.csv') # One-Hot 编码 data_encoded = pd.get_dummies(data) # 分离特征和标签 X = data_encoded.drop('label', axis=1) y = data_encoded['label'] # 训练模型 clf = DecisionTreeClassifier() clf.fit(X, y) ``` - 标签编码:使用 `sklearn` 库的 `LabelEncoder` 类将字符串类型的特征转换为数值型特征。 ```python import pandas as pd from sklearn.tree import DecisionTreeClassifier from sklearn.preprocessing import LabelEncoder # 加载数据集 data = pd.read_csv('data.csv') # 标签编码 le = LabelEncoder() data['string_feature'] = le.fit_transform(data['string_feature']) # 分离特征和标签 X = data.drop('label', axis=1) y = data['label'] # 训练模型 clf = DecisionTreeClassifier() clf.fit(X, y) ``` 需要注意的是,对于标签编码,要确保字符串类型的特征是有序的,否则可能会影响模型的性能。
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值