今天小编来和大家分享几个Pandas
实战技巧,相信大家看了之后肯定会有不少的收获。
读取数据
read_csv()
用来读取csv
格式的数据集,当然我们这其中还是有不少玄机在其中的
pd.read_csv("data.csv")
只读取数据集当中的某几列
我们只是想读取数据集当中的某几列,就可以调用其中的usecols
参数,代码如下
df = pd.read_csv("house_price.csv", usecols=["Id", "SalePrice"])
df.head()
output
时间类型的数据解析
主要用到的是parse_dates
参数,代码如下
df = pd.read_csv("Tesla.csv", parse_dates=["Date"])
df.head()
output
对于数据类型加以设定
主要调用的是dtype
这个参数,同时合适的数据类型能够为数据集节省不少的内存空间,代码如下
df = pd.read_csv("data.csv", dtype={"house_type": "category"})
设置索引
用到的是index_col
这个参数,代码如下
df = pd.read_csv("Tesla.csv", index_col="Date")
df.head()
output
只读取部分读取
用到的是nrows
参数,代码如下
df = pd.read_csv("Tesla.csv", nrows=100)
df.shape
output
(100, 7)
跳过某些行
要是数据集当中存在着一些我们并不想包括在内的内容,可以直接跳过,skiprows
参数,代码如下
pd.read_csv("data.csv", skiprows=[1, 5]) # 跳过第一和第五行
pd.read_csv("data.csv", skiprows=100) # 跳过前100行
pd.read_csv("data.csv", skiprows=lambda x: x > 0 and np.random.rand() > 0.1) # 抽取10%的数据
遇到了空值咋办呢?
要是遇到了空值,我们可以将空值用其他的值