pandas 常见使用方法以及使用场景

最新推荐文章于 2024-08-14 18:22:26 发布

置顶 qq_18617299

最新推荐文章于 2024-08-14 18:22:26 发布

阅读量1.5k

点赞数 1

分类专栏： python 数据分析文章标签：数据分析 python numpy

本文链接：https://blog.csdn.net/qq_18617299/article/details/107984685

版权

数据分析同时被 2 个专栏收录

10 篇文章 0 订阅

订阅专栏

python

8 篇文章 1 订阅

订阅专栏

numpy

Numpy:是N维数组对象（ndarray）,
- 是通用的同构数据多维容器。即其中的所有元素必须是同种类型
- ndarray有两个属性。shape：表示各维度大小的元祖 dtype:数组数据类型的对象
ndarray 数据类型
- float64 int32
numpy 索引：
- 数组切片是原始数组的视图，视图上的任何修改都会直接反映到原数组上。
- 切片索引
  array [
  [1,2,3],
  [4,5,6],
  [7,8,9] ]
  array[1,:2] [4,5]
  第一个值1是沿着第0轴开始切的，得到[4,5,6]。第二个值：2 取到这个数组的 [4,5]
- 布尔型索引 == != &(和) |（或）组合多个布尔条件
  通过布尔型数组设置值
- 花式索引利用整数数组进行索引
  arr=np.empty((8,4))
  for i in range(8):
  arr[i]=i
  arr [[0,0,0,0],[1,1,1,],[2,2,2],…[8,8,8,]]
数组转置和轴对换
通用函数：一种对ndarray中的数据执行元素级运算的函数(分为一元ufunc、二元ufunc)
- add maximum 接受两个数组（binary），并返回一个数组
- 有些ufunc可以返回多个数组,modf用于浮点数数组的小数和整数部分。

Pandas DataFrame 有行索引列索引

1.读取文件 data=pd.reade_csv(“ChapterFour/centerPort.csv”,usecols=[“shipid”,“shiptype”,“imo”,“name”],header=0)
- usecols 读取指定列参数类型为列表，为列名或者某几列的列数如：[“shipid”,“shiptype”,“imo”,“name”] 或 [0,1,2,3,4]
- header=0 指定用作列名的行数默认为header=0
2.去重 undifiedData=data.drop_duplicates(subset=[“shipid”],keep=“first”)
- subset 指定特定列进行去重 subset=[“shipid”]
- keep=“first” 删除重复项的策略，first 保留第一次出现的项，其他均删除
3.合并 mergeData=pd.merge(df1,df2,left_on=“mmsi”,right_on=“shipid”,how=“left”)
- left 左连接对象 DataFrame 或者 series object 序列化对象。如：df1
- right 右连接对象 DataFrame 或者 series object 序列化对象。如:df2
- left_on=“mmsi” 左侧对象的连接列名
- right_on=“shipid” 右侧对象的连接列名
- how=‘inner’, 联接方式 left 左连接右连接全连接内连接
- 合并判断条件为两列：
  - pd.merge(df0, df1, how=‘left’,on=[“mmsi”,“acqtime”],indicator=True)
  - 左连接有两个判断条件，同一个mmsi，同一个时间才能找到连接
  - indicator=True 提示数据的来源

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-I5hk5GZL-1597309736709)(Img/pic4.png)]

3.连接 pd.concat
- pd.concat([df1,df2],axis=0)
4.分组 GroupByObject=data.groupby([“PolygenID”]) 用mapper或者多个列名进行分组
- [“PolygenID”] 分组列
- 读取GroupBy 对象
  - for GroupName,GroupData in GroupByObject 得到每组的组名和组数据内容
  - GroupData 数据为DataFrame,遍历GroupData只需
    for index,row in GroupData.iterrows()
5.DataFrame to list DataFrame 转化为list 对象
- np.array(groupData).tolist() 先转化为numpy对象，在转化为list对象
6.list to DataFrame list（list里面嵌套多个list）转化为DataFrame 对象
- pd.DataFrame(lists,columns=["",""])
7.dataFrame 合并 pd.concat([df,PolygenDataFrame],axis=0,ignore_index=True)
- pd.concat 合并两个DataFrame（df,PolygenDataFrame）为一个DataFrame，axis=0指示为上下合并，axis=1指示为左右合并， ignore_index 是否忘记两个DataFrame原来索引
  [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-u014UfaL-1597309736710)(Img/pic3.png)]
8.添加DataFrame某列元素
- PolygenDataFrame[“flag”]=FlagList
- 某列都为一个值 PolygenDataFrame[“flag”]=“true”
9.DataFrame 取出包含指定条件的多行
- 选取某列含有特殊数值的行 df2[df2[“country”].isin[1]] 选取country列内容中包含数字1的行
- 选取某列满足一定条件的行 df2[df2[“country”]==“China”] 选取country列内容为"China"的行
- 选取某列满足一定条件的行 me[me[“berthID”].isin([“13336”,“10854”,“15323”,“8890”,"1614
- 2",“17710”])]
  选取不在列表中的行记录 me[~(me[“berthID”].isin([“13336”,“10854”,“15323”,“8890”,“16142”,“17710”]))]
- 多个条件用 ‘&’ 连接 &表示与，即条件同时满足
  df[(df[“acqTime”] >= 1535731200) & (df[“acqTime”] <= 1538323200)]
- 多个条件用 ‘|’ 连接， |表示或，即只有一个条件满足
  df2 = df2[(df2[“ShiptypeLevel4”].isin(
  [“Self Discharging Bulk Carrier”, “Bulk Carrier”, “Bulk/Oil Carrier”,
  “Bulk/Liquid Carrier”])) | (df2[“ShiptypeLevel3”] == “Container”)]
10.DataFrame 取某行数据
- df.iloc[2] 取第二行数据
- df.loc[[2]] 取索引列索引值（index）为2的行
11.一个DataFrame追加另一个DataFrame数据 empty = pandas.DataFrame({“name”:"",“age”:"",“sex”:""})
- 创建一个新的 DataFrame new = pandas.DataFrame({“name”:"",“age”:"",“sex”:""},index=[“0”])。
- empty = empty.append(new,ignore_index=True)
- 也可以两句合为一句
  data = data.append({“mmsi”: name, “mmsiTtime”: mmsiTtime}, ignore_index=True)
12.遍历DataFrame Pandas
- for index,row in me.iterrows():
  geom=row[“geom”]取到某一列
13.DataFrame
保存为csv文件
- me.to_csv(“1206/latlon.csv”, index=True, header=True,columns=[“berthId”,“flightNumber”])
- 参数说明： index：行名是否保存
14.pandas pandas.cut 离散化。把连续数据离散化(分箱操作) 。根据指定分界点对连续数据进行分箱处理 pandas.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False, duplicates=‘raise’)
- 案例：listBins=[0,2000,4000,6000,8000,10000,12000,16000,20000,800000]
  listLabels=["<2000TEU",“2000-4000TEU”,“4000-6000TEU”,“6000-8000TEU”, “8000-10000TEU”,“10000-12000TEU”,“12000-16000TEU”,“16000-20000TEU”, “>20000TEU”]
  pd.cut(undifiedData[‘TEU’],bins=listBins,labels=listLabels,include_lowest=True,right=False)
- x: 离散化的数据；必须为一维
- bins:分箱依据（分级依据）。序列化标量(sequence of scalars) 定义允许非一定宽度的箱子边界；int 定义序列“x”相同宽度的箱子个数;IntervalIndex 间隔指数：定义确实要使用的箱子间隔
- labels: 指定Return箱子的标签名。labels 长度必须和结果离散集合长度一致
- right:指定是否包含右边界
- include_lowest ：第一个间隔是否包含左闭包区间。上面样例为是否包含[0,2000]中的0
- 与 pandas.value_counts()连用效果更好；计算每个箱子中的个数，并可以给这个箱子命名（pd.value_counts return 格式为Series）
  score_out=pd.cut(undifiedData[‘TEU’],bins=listBins,labels=listLabels,include_lowest=True,right=False)
  resultSeries=pd.value_counts(score_out,sort=False,normalize=True)
15.创建一个空的 DataFrame data=pd.DataFrame()
16.nan判断 pd.isna(row[“shipclass”]) 判断row[“shipclass”]是否为nan 在DataFrame 中，nan为float类型，只能使用这种自带的方式判断是否为nan
17.DataFrame 数据集取某几列数据
- df_test = pd.DataFrame(np.random.random(size=(4,4)))
- df_test.loc[:,[1,3]] or df_test[[1,3]]

Pandas 数据预处理

Nan处理

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-tqz8IFdo-1597309736712)(Img/pic6.png)]

处理1
- 将nan设置为0
  stu_info = pd.read_csv(‘student_info1.csv’,header=1)
  stu_info.fillna(0)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-V0F5uOhf-1597309736713)(Img/pic7.png)]

网址 https://www.jianshu.com/p/ab64424ee99e

取非NAN行处理操作

df[(1 - pd.isnull(df[“Port_Name”])).astype(np.bool)] 取Port_Name 为非NAN行

创建一列指定长度数据

mmsiRow=[name for i in range(0,len(ordered))]

pandas 某列进行数据类型转换

使用 astype() 进行类型转化
使用astype() 把 ‘TEU’ 这一列转换为float类型
df[‘TEU’] = df[‘TEU’].astype(“float”)

自定义函数清理数据

某列数据转化为int，并除以1e6
df[‘c6’] = df[‘c6’].values.astype(“int”)/1e6

自定义函数清洗方法1

  def convert_currency(var):
  """
  convert the string number to a float  
  _ 去除$  
  - 去除逗号，  
  - 转化为浮点数类型  
  """  
  new_value = var.replace(",","").replace("$","")  
  return float(new_value)

df[“2016”]=df[“2016”].apply(convert_currency)

OR
df[“2016”].apply(lambda x: x.replace(",","").replace("$","")).astype(“float64”)

利用np.where() function 将active 列转化为布尔值
df[“Active”] = np.where(df[“Active”] == “Y”, True, False)