pandas笔记

pandas的基本用法(熟记)

简单的几百条数据,足够练习了。提取码:h9z1
0. 导入包
import pandas as pd

  1. 导入csv文件
    data=pd.read_csv('D:/PyCharm Community Edition 2019.1.1/Recruit_Analyse/lagou.csv',encoding='utf-8')

  2. 转给DataFrame类型
    df=pd.DataFrame(data)

  3. 基本的维度查看,也就行和列
    df.shape
    在这里插入图片描述

  4. 数据表的基本信息(维度,列名称,数据格式,所占空间等)
    df.info
    在这里插入图片描述

  5. 每一列的数据格式
    df.dtypes
    在这里插入图片描述

  6. 某一列的格式
    df['公司全名'].dtype
    在这里插入图片描述

  7. 查看空值:
    df.isnull() flash代表不是空值
    在这里插入图片描述

  8. 查看某一列的空值
    df['城市'].isnull()
    在这里插入图片描述

  9. 查看某一列的唯一值 ,重复的已经被过滤掉了
    df['城市'].unique()
    在这里插入图片描述

  10. 查看数据表的值
    df.values
    在这里插入图片描述

  11. 查看列名称
    df.columns
    在这里插入图片描述

  12. 查看前5行的数据
    df.head()
    查看前10行的数据
    df[:10]
    在这里插入图片描述

  13. 默认查看后5行
    df.tail()
    在这里插入图片描述

  14. 用数据0填充空值 (空值:在pandas中的空值是""),缺失值:在dataframe中为nan或者naT(缺失时间),在series中为none或者nan即可
    df.fillna(value=0)

  15. 清除字段的字符空格
    df['福利待遇']=df['福利待遇'].map(str.strip)

  16. 大小写转换
    df[‘salary’]=df[‘salary’].str.lower()

  17. 更改数据格式
    df['岗位id'].astype('str')

  18. 更改列名称,只对当前df有效
    df.rename(columns={'岗位id':'id'})
    在这里插入图片描述
    drop_duplicates():
    subset : column label or sequence of labels, optional
    用来指定特定的列,默认所有列
    keep : {‘first’, ‘last’, False}, default ‘first’
    删除重复项并保留第一次出现的项
    inplace : boolean, default False
    是直接在原来数据上修改还是保留一个副本

  19. 删除之后出现的重复值
    df[‘岗位id’].drop_duplicates(keep=’last’)

  20. 设置索引列
    df.set_index('岗位id')

  21. 按照特定列的值排序
    df.sort_values(by=['城市'])

  22. 如果城市列的值等于上海,城市列显示true,否则显示flase
    df['城市']=np.where(df['城市']=='上海','true','flase')

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值