pandas 终极版5: 字符串和缺失值处理

有些时候我们的数据是字符串形式的,pandas也能方便的处理。

一、字符串处理。

In [25]: s = pd.Series(list('ABCDEF'))

In [26]: s
Out[26]: 
0    A
1    B
2    C
3    D
4    E
5    F
dtype: object

(1)字符大小写转换:s.str.lower()和s.str.upper()

In [27]: s.str.lower()
Out[27]: 
0    a
1    b
2    c
3    d
4    e
5    f
dtype: object

In [28]: s.str.upper()
Out[28]: 
0    A
1    B
2    C
3    D
4    E
5    F
dtype: object
(2)获取字符串的长度:s.str.len()

In [30]: s.str.len()
Out[30]: 
0    1
1    1
2    1
3    1
4    1
5    1
dtype: int64
3)切割字符串:

In [31]: s1 = pd.Series(['A_B_C','D E F',np.nan,'I_J K'])

In [32]: s1
Out[32]: 
0    A_B_C
1    D E F
2      NaN
3    I_J K
dtype: object
split()将字符串转换为list
In [42]: s1.str.split('_')
Out[42]: 
0    [A, B, C]
1      [D E F]
2          NaN
3     [I, J K]
dtype: object
str.get(i)取列表里第i个元素,.str[i]也是一样的结果,不存在用NaN表示。
In [43]: s1.str.split('_').str.get(1)
Out[43]: 
0      B
1    NaN
2    NaN
3    J K
dtype: object
(4)替换字符串replace:replace的第一个参数是正则表达式,第二个参数是要替换成的字符串。

          将空格替换下划线

In [53]: s1.str.replace(' ','_')
Out[53]: 
0    A_B_C
1    D_E_F
2      NaN
3    I_J_K
dtype: object

(4)字符串提取:extract,它的第一个参数是正则表达式,无法匹配的内容用NaN表示

   用extract提取数字


                
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
在使用决策树进行分类或回归时,处理缺失值和字符串通常有以下几种方法: 1. 缺失值处理 - 删除缺失值:可以使用 `pandas` 库的 `dropna()` 函数删除缺失值,但这会导致数据集的样本量减少。 ```python import pandas as pd from sklearn.tree import DecisionTreeClassifier # 加载数据集 data = pd.read_csv('data.csv') # 删除缺失值 data.dropna(inplace=True) # 分离特征和标签 X = data.drop('label', axis=1) y = data['label'] # 训练模 clf = DecisionTreeClassifier() clf.fit(X, y) ``` - 填充缺失值:可以使用 `pandas` 库的 `fillna()` 函数或 `sklearn` 库的 `SimpleImputer` 类填充缺失值。其中,`fillna()` 函数可以使用指定的值或者均值、中位数等填充缺失值;`SimpleImputer` 类可以使用均值、中位数、众数等填充缺失值。 ```python import pandas as pd from sklearn.tree import DecisionTreeClassifier from sklearn.impute import SimpleImputer # 加载数据集 data = pd.read_csv('data.csv') # 填充缺失值 # 使用指定的值填充 # data.fillna(value=0, inplace=True) # 使用均值填充 # imp = SimpleImputer(strategy='mean') # data = imp.fit_transform(data) # 分离特征和标签 X = data.drop('label', axis=1) y = data['label'] # 训练模 clf = DecisionTreeClassifier() clf.fit(X, y) ``` 2. 字符串处理 对于字符串的特征,可以使用 One-Hot 编码或者标签编码将其转换为数值特征。 - One-Hot 编码:使用 `pandas` 库的 `get_dummies()` 函数将字符串的特征转换为数值特征。 ```python import pandas as pd from sklearn.tree import DecisionTreeClassifier # 加载数据集 data = pd.read_csv('data.csv') # One-Hot 编码 data_encoded = pd.get_dummies(data) # 分离特征和标签 X = data_encoded.drop('label', axis=1) y = data_encoded['label'] # 训练模 clf = DecisionTreeClassifier() clf.fit(X, y) ``` - 标签编码:使用 `sklearn` 库的 `LabelEncoder` 类将字符串的特征转换为数值特征。 ```python import pandas as pd from sklearn.tree import DecisionTreeClassifier from sklearn.preprocessing import LabelEncoder # 加载数据集 data = pd.read_csv('data.csv') # 标签编码 le = LabelEncoder() data['string_feature'] = le.fit_transform(data['string_feature']) # 分离特征和标签 X = data.drop('label', axis=1) y = data['label'] # 训练模 clf = DecisionTreeClassifier() clf.fit(X, y) ``` 需要注意的是,对于标签编码,要确保字符串的特征是有序的,否则可能会影响模的性能。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值