python字典转DataFrame不等长的处理

d = {'A': [1, 2], 'C': [1, 2, 3, 4]}
data = pd.DataFrame(d)
print(data)

由于列表不等长会报错:

ValueError: arrays must all be same length

改为:

c = pd.DataFrame(dict([(k, pd.Series(v)) for k, v in d.items()]))

print(c)


     A  C
0  1.0  1
1  2.0  2
2  NaN  3
3  NaN  4

### Pandas DataFrame 结构及数据类型的解释 #### 数据框 (DataFrame) 的定义 Pandas 中的 `DataFrame` 是一种二维表格型的数据结构,具有行列标签。它类似于电子表格或 SQL 表格,可以存储不同类型的列数据(数值、字符串、布尔值等)。创建一个 `DataFrame` 可以通过字典形式传递数组或者列表来实现[^1]。 ```python import pandas as pd data = {'Column1': [1, 2, 3], 'Column2': ['A', 'B', 'C']} df = pd.DataFrame(data) print(df) ``` 上述代码展示了如何利用 Python 字典中的键作为列名以及对应的值作为每列的内容构建了一个简单的 `DataFrame` 实例。 #### 分类数据类型(Categorical Data Types) 在处理某些特定场景下的数据分析时,比如涉及类别变量的情况,Pandas 提供了专门用于表示分类数据的支持。这种支持允许更高效地存储这些类别并优化内存使用情况。此外,在执行诸如排序之类的操作上也更加灵活方便[^2]。 以下是设置一列为分类数据的例子: ```python categories = pd.Categorical(['cat','dog','fish'], categories=['dog','cat','bird']) df['Category'] = categories print(df.dtypes) ``` 这里我们把新加入的一列设为了分类类型,并指定了可能存在的几个唯一取值范围{'dog', 'cat', 'bird'}。注意实际输入并不完全匹配预定义集合;这不会引发错误而是简单标记为NaN(Not A Number). #### 描述统计(describe()) 对于初步探索给定数据集而言非常有用的一个函数就是describe(), 它会针对数值型字段计算一些基本统计数据如均值(mean),标准差(stddeviation),最小最大值等等;而对于非数值对象则给出计数(counts)[^3]. 运行下面这段脚本即可查看之前建立起来的那个小型 dataframe 各项指标概况: ```python summary_stats = df.describe(include='all') print(summary_stats) ``` 此命令不仅限于数字特征分析还包括其他任何种类的信息汇总. #### 总结 综上所述,Pandas库提供了强大而丰富的功能帮助用户轻松完成各种复杂程度不等的任务需求.无论是基础还是高级应用场合下都能找到合适的方法满足业务目标达成所需条件.
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值