数据来源:数据来源:和鲸社区-Numpy+Pandas数据处理·第五关-美国犯罪数据
主要内容:
- 数据读取/存储时的索引问题
- 查看每列的数据类型
- 将year的数据类型由int64转换为datetime64
- 重置索引
- 删除列
- 时间序列分析之重采样–resample
- 设置数字格式,小数位数、百分号、千位分隔符
- 计算犯罪率
导入数据
import pandas as pd
import numpy as np
filepath4 = "/home/mw/input/Pandas_exercise2020/US_Crime_Rates_1960_2014.csv"
crime = pd.read_csv(filepath4, index_col = 0)
crime.head()
知识点-数据读取/存储时的索引问题
# pd.read_csv()||pd.to_csv()索引问题index:
# to_csv()存储时不加索引
# df.to_csv(path, index= False, header= False)
# read_csv()读取时声明第一列是索引,第一行是索引
# df = pd.read_csv(path, index_col= 0, header= 0)
# header = 0 # 源文件第一行作为读取后的列索引
# header = None # 源文件没有列索引,自动为其添加
# index_col = None # 源文件没有行索引,自动为其添加,把原来其自己的行索引视为新的一列
# index_col = 0 # 指定源文件第一列作为行索引
# 相关资料:
# https://blog.csdn.net/The_Time_Runner/article/details/88353161
查看每列数据类型
# 每一列(column)的数据类型是什么样的?
crime.info