CSV 文件
CSV(逗号分隔值)是一种常见的文件格式,用于存储表格数据,其数据以纯文本形式表示,通常由行和列组成,并使用逗号作为字段之间的分隔符。Pandas是一个强大的Python库,可以很方便地处理CSV文件。
import csv
# 定义数据
data = [
["Name", "Team", "Points"],
["LeBron James", "Lakers", 25],
["Kevin Durant", "Nets", 28],
["Stephen Curry", "Warriors", 30]
]
# 写入数据到 CSV 文件
with open('nba.csv', mode='w', newline='') as file:
writer = csv.writer(file)
writer.writerows(data)
print("nba.csv 文件创建成功,并成功写入数据!")
import pandas as pd
# 从CSV文件读取数据创建DataFrame
df = pd.read_csv('nba.csv')
# 显示DataFrame的前几行数据
print(df.head())
to_string()
函数是用于将DataFrame类型的数据转换为字符串形式,以便在控制台或其他输出环境中显示。如果您不使用 to_string()
函数,则默认情况下,只会输出DataFrame的前5行和后5行,并且中间的行用 ...
表示。
import pandas as pd
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve', 'Frank', 'Grace', 'Henry', 'Isabel', 'Jack'],
'Age': [25, 30, 35, 40, 45, 50, 55, 60, 65, 70],
'City': ['Beijing', 'Shanghai', 'Guangzhou', 'Shenzhen', 'Hangzhou', 'Chengdu', 'Wuhan', 'Tianjin', 'Nanjing', 'Xiamen']}
df = pd.DataFrame(data)
# 输出DataFrame的字符串表示形式
print(df.to_string())
我们也可以使用 to_csv() 方法将 DataFrame 存储为 csv 文件:
import pandas as pd
# 三个字段 name, site, age
nme = ["Google", "Runoob", "Taobao", "Wiki"]
st = ["www.google.com", "www.runoob.com", "www.taobao.com", "www.wikipedia.org"]
ag = [90, 40, 80, 98]
# 字典
dict = {'name': nme, 'site': st, 'age': ag}
df = pd.DataFrame(dict)
# 保存 dataframe
df.to_csv('site.csv')
数据处理
head()
head( n ) 方法用于读取前面的 n 行,如果不填参数 n ,默认返回 5 行。
实例 - 读取前面 5 行
import pandas as pd
df = pd.read_csv('nba.csv')
print(df.head())
Name Team Number Position Age Height Weight College Salary
0 Avery Bradley Boston Celtics 0.0 PG 25.0 6-2 180.0 Texas 7730337.0
1 Jae Crowder Boston Celtics 99.0 SF 25.0 6-6 235.0 Marquette 6796117.0
2 John Holland Boston Celtics 30.0 SG 27.0 6-5 205.0 Boston University NaN
3 R.J. Hunter Boston Celtics 28.0 SG 22.0 6-5 185.0 Georgia State 1148640.0
4 Jonas Jerebko Boston Celtics 8.0 PF 29.0 6-10 231.0 NaN 5000000.0
实例 - 读取前面 10 行
import pandas as pd
df = pd.read_csv('nba.csv')
print(df.head(10))
tail()
tail( n ) 方法用于读取尾部的 n 行,如果不填参数 n ,默认返回 5 行,空行各个字段的值返回 NaN。
实例 - 读取末尾 5 行
import pandas as pd
df = pd.read_csv('nba.csv')
print(df.tail())
实例 - 读取末尾 10 行
import pandas as pd
df = pd.read_csv('nba.csv')
print(df.tail(10))
info()
info() 方法返回表格的一些基本信息:
import pandas as pd
df = pd.read_csv('nba.csv')
print(df.info())
non-null 为非空数据,我们可以看到上面的信息中,总共 458 行,College 字段的空值最多。