python 字典和dataframe之间的转换

最新推荐文章于 2024-01-16 10:03:11 发布

向日葵

最新推荐文章于 2024-01-16 10:03:11 发布

阅读量1.2w

点赞数 4

分类专栏： Python

本文链接：https://blog.csdn.net/mao15827639402/article/details/106637807

版权

Python 专栏收录该内容

13 篇文章 1 订阅

订阅专栏

1.将字典格式转化成dataframe：

temp = {'user_id':['a','b','c','d'],
        'age':[23,34,18,20],
        'sex':['f','m','m','f'],
        'click':[1,0,0,1]}
df = pd.DataFrame.from_dict(temp）
#此处默认orient=columns,将字典的key转换成dataframe的列名
print(df) 
   user_id  age sex  click
0       a   23   f      1
1       b   34   m      0
2       c   18   m      0
3       d   20   f      1


df1 = pd.DataFrame.from_dict(temp,orient = 'index')
#此处将字典的key转换成行索引
print(df1)
          0   1   2   3
user_id   a   b   c   d
age      23  34  18  20
sex       f   m   m   f
click     1   0   0   1

2.将dataframe转换成dict，将df换成temp

df: 
   user_id  age sex  click
0       a   23   f      1
1       b   34   m      0
2       c   18   m      0
3       d   20   f      1
temp = df.to_dict(orient = 'list')
{'user_id': ['a', 'b', 'c', 'd'],
 'age': [23, 34, 18, 20],
 'sex': ['f', 'm', 'm', 'f'],
 'click': [1, 0, 0, 1]}



注意：当df.to_dict(),默认orient='dict',此时是一个嵌套字典，格式{column -> {index -> value}},df.to_dict()结果如下：
{'user_id': {0: 'a', 1: 'b', 2: 'c', 3: 'd'},
 'age': {0: 23, 1: 34, 2: 18, 3: 20},
 'sex': {0: 'f', 1: 'm', 2: 'm', 3: 'f'},
 'click': {0: 1, 1: 0, 2: 0, 3: 1}}

3.将dataframe变成嵌套字典形式：

data:
   gaid tag  score
0    a  AA      1
1    a  BB      2
2    a  CC      1
3    b  AA      1
4    b  CC      1
5    c  BB      1

变成每个用户对不同tag的评分字典
{'a': {'AA': 1.0, 'BB': 2.0, 'CC': 1.0},
 'b': {'AA': 1.0, 'BB': nan, 'CC': 1.0},
 'c': {'AA': nan, 'BB': 1.0, 'CC': nan}}

python代码：
temp = data.groupby(['tag','gaid'])['score'].sum().unstack().to_dict()

然后将nan的去掉：
for k in list(temp):
    for k1 in list(temp[k]):
        if str(temp[k][k1]) == 'nan':
            del temp[k][k1]
{'a': {'AA': 1.0, 'BB': 2.0, 'CC': 1.0},
 'b': {'AA': 1.0, 'CC': 1.0},
 'c': {'BB': 1.0}}     

接下来将字典变成dataframe:
df = pd.DataFrame(temp).T
Out[104]: 
    AA   BB   CC
a  1.0  2.0  1.0
b  1.0  NaN  1.0
c  NaN  1.0  NaN

进一步将列转成行 和原始data一样
df.stack()可理解成将每一行转置竖着放，堆叠起来，行名作为一级索引
pd.DataFrame(temp).T.stack()
Out[101]: 
a  AA    1.0
   BB    2.0
   CC    1.0
b  AA    1.0
   CC    1.0
c  BB    1.0
dtype: float64

df.unstack()可理解成将每一列竖着堆叠，以列名作为一级索引
pd.DataFrame(temp).T.unstack()
Out[105]: 
AA  a    1.0
    b    1.0
    c    NaN
BB  a    2.0
    b    NaN
    c    1.0
CC  a    1.0
    b    1.0
    c    NaN
dtype: float64

4.嵌套字典排序：

top5
S={}
for k,v in list(temp.items()):
    S[k] = dict(sorted(v.items(),key=lambda x:x[1],reverse=True)[:5])
    

字典写入本地文档：
SS = {'a': {'AA': 1.0, 'BB': 2.0, 'CC': 1.0},
      'b': {'AA': 1.0, 'CC': 1.0},
      'c': {'BB': 1.0}} 
file = open('E:\\working_file\\simatrix', 'w') 
for k,v in SS.items():
    file.write(str(k)+' '+str(v)+'\n')

向日葵

关注

4
点赞
踩
52

收藏

觉得还不错? 一键收藏
1
评论
python 字典和dataframe之间的转换

1.将字典格式转化成dataframe：temp = {'user_id':['a','b','c','d'], 'age':[23,34,18,20], 'sex':['f','m','m','f'], 'click':[1,0,0,1]}df = pd.DataFrame.from_dict(temp）#此处默认orient=columns,将字典的key转换成dataframe的列名print(df) user_id age sex...
复制链接

扫一扫

专栏目录