机器学习（二）--- 数据处理技巧

最新推荐文章于 2024-08-23 17:48:13 发布

hurricane_li

最新推荐文章于 2024-08-23 17:48:13 发布

阅读量344

点赞数

分类专栏：机器学习文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/hurricane_li/article/details/117806580

版权

机器学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

1. 多列one-hot列转变为一列label：

# 需要被转换的dataframe只有one-hot数据列，转换的结果会得到series
study_label = pd.read_csv('./train_study_level.csv', index_col='id')
study_labels = study_label.idxmax(axis=1).rename('study_label')

2. 一列label转变为多列one-hot：

# 忘了，待补充

3. 将一列结构数据值扩展为多列：

# 注意[dict(zip([...],[...])) for i in ...]的使用
from ast import literal_eval
data = []
for row in image_label.values:
    data = data + [dict(zip(['id','boxes','study_id','class','confident','xmin','ymin','xmax','ymax'],[row[0],str(literal_eval(row[1])[i]) if type(row[1])==str else row[1],row[3]]+list(v))) for i,v in enumerate(np.array(row[2].split()).reshape(-1,6))]
df = pd.DataFrame(data)
df.head()

4. 数据总和占比显示（饼图）：

import matplotlib.pyplot as plt
label_count = study_label.sum()
plt.figure(figsize=(8,8))
# explode跟据占比不一样，看着不错
plt.pie(label_count, labels=label_count.index, wedgeprops={'edgecolor':'black'}, autopct='%1.f%%', textprops={'fontsize':16},
       explode=[.01]*4, shadow=True)
plt.title('Label Distribution', fontdict={'fontsize':22})

hurricane_li

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习（二）--- 数据处理技巧

1. 多列one-hot列转变为一列label：# 需要被转换的dataframe只有one-hot数据列，转换的结果会得到seriesstudy_label = pd.read_csv('./train_study_level.csv', index_col='id')study_labels = study_label.idxmax(axis=1).rename('study_label')...
复制链接

扫一扫

专栏目录