pandas学习

LXSHYZHX

于 2024-01-16 16:32:43 发布

阅读量306

点赞数 7

分类专栏：工具箱文章标签： pandas 学习 python

本文链接：https://blog.csdn.net/u012074900/article/details/135628605

版权

工具箱专栏收录该内容

11 篇文章 0 订阅

订阅专栏



  # 1. 导入 pandas 库
  import pandas as pd
  
  # 2. 读取数据
  # 2.1 CSV 文件
  df = pd.read_csv('data.csv')
  
  # 2.2 Excel 文件
  df = pd.read_excel('data.xlsx', sheet_name='Sheet1')
  
  # 3. 处理缺失值
  # 3.1 检测缺失值
  print(df.isnull().sum())
  
  # 3.2 填充缺失值
  df['column'] = df['column'].fillna('value')
  
  # 4. 数据清洗
  # 4.1 去除重复行
  df.drop_duplicates(inplace=True)
  
  # 4.2 去除空值
  df.dropna(inplace=True)
  
  # 5. 数据转换
  # 5.1 类型转换
  df['column'] = df['column'].astype('int64')
  
  # 5.2 值转换
  df['column'] = df['column'].replace({'value': 'new_value'})
  
  # 6. 数据分析
  # 6.1 统计信息
  print(df.describe())
  
  # 6.2 查看头部行和尾部行
  print(df.head())
  print(df.tail())
  
  # 7. 数据合并
  # 7.1 内连接
  df = pd.merge(df, df, on='column')
  
  # 7.2 外连接
  df = pd.merge(df, df, left_on='column', right_index=True)
  
  # 8. 数据可视化
  import matplotlib.pyplot as plt
  
  # 8.1 线图
  plt.plot(df['column'])
  plt.xlabel('X-axis')
  plt.ylabel('Y-axis')
  plt.title('Title')
  plt.show()
  
  # 9. 高级功能
  # 9.1 并行处理
  df = pd.read_csv('data.csv', chunksize=1000)
  with pd.Parallelize(n_jobs=-1):
      for chunk in df:
          print(chunk)
  
  # 9.2 分布式处理
  from dask import DataFrame as DdF
  
  df = DdF.from_pandas(df, index=False)