数据处理trick

最新推荐文章于 2023-10-23 10:38:29 发布

joleoy

最新推荐文章于 2023-10-23 10:38:29 发布

阅读量251

点赞数

分类专栏： python数据处理

本文链接：https://blog.csdn.net/joleoy/article/details/86496270

版权

python数据处理专栏收录该内容

5 篇文章 0 订阅

订阅专栏

以下都是从一些博客收集的数据处理trick，方便日后使用

1.基于sklearn同时处理连续特征和离散特征

核心思路：

先用LabelEncoder对离散特征编码，因为onehotencoder只能处理数值

然后使用OneHotEncoder编码，生成稀疏表示的特征

再使用sparse.hstack连接连续特征和稀疏特征

为什么不使用pd.get_dummy呢，因为这样是直接生成的稠密矩阵，内存开销太大、

from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import OneHotEncoder
from scipy import sparse

for feature in cate_feature + con_feature:
    data[feature] = LabelEncoder().fit_transform(data[feature].values)
enc = OneHotEncoder()
train_x=train[numeric_feature]
test_x=test[numeric_feature]
for feature in cate_feature+con_feature:
    enc.fit(data[feature].values.reshape(-1, 1))
    train_a=enc.transform(train[feature].values.reshape(-1, 1))
    test_a = enc.transform(test[feature].values.reshape(-1, 1))
    train_x= sparse.hstack((train_x, train_a))
    test_x = sparse.hstack((test_x, test_a))

# 文本one hot
from sklearn.feature_extraction.text import CountVectorizer
# 每行用空格join起来
data['corpus']=data['corpus'].apply(lambda x:' '.join(x.split(';')))
#如果corpus里面是数字，可能会提示empty vocabulary; perhaps the documents only contain stop words
#改成这样就行了CountVectorizer(token_pattern='(?u)\\b\\w+\\b')
property_feature = CountVectorizer().fit_transform(data['corpus'])
train_x=sparse.hstack((train_property_feature,train_x))

2.逐行扫描数据，只要此行存在一个异常值。对此行进行删除

这里，any([])函数如若里面一个为真，则返回True.即逐行扫描，发现‘missing’存在此行中，或此行时间不落在0-24之间，或气压rpessure大于1500，或风向不落在0-360度之间，或风速大于10级，或precipitation降雨量大于10，则此行数据为异常数据进行删除。

for i in range(data.index.max()):
	if any([
		'missing' in data.loc[i,:].values,
		data.loc[i,'hour'] not in range(25),
		data.loc[i,'pressure']>1500,
		data.loc[i,'wind_direction']<0 or data.loc[i,'wind_direction']>360,
		data.loc[i,'wind_speed']>10,
		data.loc[i,'precipitation']>10
		]):
 
		print('已删除存在异常值 %s 行数据'%i)
		data.drop([i],inplace=True)

3.统计极差、变异系数和四位数间距


print('\n-----------------------极差变异系数四分位间距-------------------------')
statistics = data.describe() #保存基本统计量
statistics.loc['range'] = statistics.loc['max']-statistics.loc['min'] #极差
statistics.loc['var'] = statistics.loc['std']/statistics.loc['mean'] #变异系数
statistics.loc['dis'] = statistics.loc['75%']-statistics.loc['25%'] #四分位数间距
# print(statistics)