pandas学习



  # 1. 导入 pandas 库
  import pandas as pd
  
  # 2. 读取数据
  # 2.1 CSV 文件
  df = pd.read_csv('data.csv')
  
  # 2.2 Excel 文件
  df = pd.read_excel('data.xlsx', sheet_name='Sheet1')
  
  # 3. 处理缺失值
  # 3.1 检测缺失值
  print(df.isnull().sum())
  
  # 3.2 填充缺失值
  df['column'] = df['column'].fillna('value')
  
  # 4. 数据清洗
  # 4.1 去除重复行
  df.drop_duplicates(inplace=True)
  
  # 4.2 去除空值
  df.dropna(inplace=True)
  
  # 5. 数据转换
  # 5.1 类型转换
  df['column'] = df['column'].astype('int64')
  
  # 5.2 值转换
  df['column'] = df['column'].replace({'value': 'new_value'})
  
  # 6. 数据分析
  # 6.1 统计信息
  print(df.describe())
  
  # 6.2 查看头部行和尾部行
  print(df.head())
  print(df.tail())
  
  # 7. 数据合并
  # 7.1 内连接
  df = pd.merge(df, df, on='column')
  
  # 7.2 外连接
  df = pd.merge(df, df, left_on='column', right_index=True)
  
  # 8. 数据可视化
  import matplotlib.pyplot as plt
  
  # 8.1 线图
  plt.plot(df['column'])
  plt.xlabel('X-axis')
  plt.ylabel('Y-axis')
  plt.title('Title')
  plt.show()
  
  # 9. 高级功能
  # 9.1 并行处理
  df = pd.read_csv('data.csv', chunksize=1000)
  with pd.Parallelize(n_jobs=-1):
      for chunk in df:
          print(chunk)
  
  # 9.2 分布式处理
  from dask import DataFrame as DdF
  
  df = DdF.from_pandas(df, index=False)
  • 7
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

LXSHYZHX

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值