1、pandas
pandas 是一个多功能且功能强大的数据科学库。
2、读取数据
pd.read_csv("data.csv")
3、读取指定列
pd.read_csv("data.csv", usecols=["date", "price"])
4、读取并解析日期
pd.read_csv("data.csv", parse_dates=["date"])
5、读取时指定数据类型
在读取时设置类别数据类型可以节省内存。
pd.read_csv("data.csv", dtype={"house_type": "category"})
6、读取时设置索引
pd.read_csv("data.csv", index_col="date")
7、设置读取的行数
pd.read_csv("data.csv", nrows=100)
8、读取时跳过行数
pd.read_csv("data.csv", skiprows=[1, 5]) # skips line 1 and 5
pd.read_csv("data.csv", skiprows=100) # skips the first 100 lines
pd.read_csv("data.csv", skiprows=lambda x: x > 0 and np.random.