第一章 numpy
numpy数组
前提:import numpy as np
1.np.reshape(a,b)重塑数组大小维度np.loadtxt(frame(文件路径),dtype(文件类型),delimiter(分隔符),skiprows(跳过几行),usecols(作用列),unpack(是否将属性写入不同数组))
2.np.where(三位运算符)
3.假入t是一个数组,那么t.clip(10,20)将小于10的为10。大于20的都为20
t[:2] :前两列 ; t[2:]从第二列之后 ;
4.nan是float类型,当读取文本文件有缺失,或者无穷大减去无穷大时会变成nan
5.a=b,a=[:b] 他们进行数据变化时跟a有关,但是copy()无关
6.水平拼接数组np.hstack() 竖直拼接数组np.vstack()
第二章 pandas
前提:import pandas as pd
t2 = pd.DataFrame(np.arange(12).reshape(3, 4), index=["a", "b", "c"], columns=["x", "y", "z", "w"])
print(t2.shape) #数组形状 print(t2.index) #数组行索引 print(t2.columns) #数组列索引 print(t2.dtypes) #数组各列类型 print(t2.head()) #数组前几个文件 print(t2.tail(2)) #数组后几个行 print(t2.info()) #数组信息 print(t2.describe()) #数组的一些值,比如标准差,均值等pd.join 按行进行合并, pd.merge 按列进行合并 #df.merge 方式:inner:交集,outer:并集,left:左边为准,right : 右边为准
data1 = df.groupby(by="City").count()["Brand"].sort_values(ascending=False)[:25] #表示从数据中以City为标准化成几组,然后按Brand为依据进行排序,使用ascending=Flase将升序改为降序,取前25个
df.index #显示索引 df.index= ['x','y'] #将索引修改 df.reindex(list("abcdef")) #将索引修改 df.set_index("Country",drop=False) #将某一列作为索引,Flase表示不保留原来的列
#把分开的时间字符串通过periodIndex的方法转化为pandas的时间类型 period = pd.PeriodIndex(year=df["year"],month=df["month"],day=df["day"],hour=df["hour"],freq="H") df["datetime"] = period df = df.resample("M").mean() #变为以月为单位 data = df ["123"].dropna() #去除某一列缺失值