用Python构造DataFrame
什么是DataFrame?
DataFrame是一种二维带标签数组结构,它可以存储不同类型的列(如数值、字符串、布尔等),并且可以对其进行索引、选取、过滤、合并和重构等操作。类似于Excel表格,但是数据可以更方便、更快速地操作,更容易进行分析和可视化。
在Python的pandas库中,DataFrame和Series是最常用的数据结构之一。通常使用import pandas as pd
引入pandas库,并且用pd.DataFrame()来构造DataFrame。
如何构造DataFrame?
构造空的DataFrame
构造一个空的DataFrame可以通过pd.DataFrame(),并传入不同的参数设置行和列:
import pandas as pd
df = pd.DataFrame(columns=['Name', 'Age', 'Gender'])
print(df)
输出结果:
Empty DataFrame
Columns: [Name, Age, Gender]
Index: []
构造有值的DataFrame
构造有值的DataFrame可以通过pd.DataFrame(),传入列表、字典或嵌套列表:
import pandas as pd
data = [['John', 25, 'Male'], ['Lucy', 30, 'Female'], ['Tom', 22, 'Male']]
columns = ['Name', 'Age', 'Gender']
df = pd.DataFrame(data, columns=columns)
print(df)
输出结果:
Name Age Gender
0 John 25 Male
1 Lucy 30 Female
2 Tom 22 Male
通过读取文件构造DataFrame
通常,我们从外部数据源中读取数据(如CSV、Excel、JSON、SQL等),并将其转换成DataFrame。例如,读取CSV文件可以通过pd.read_csv():
import pandas as pd
df = pd.re