数据分析之pandas应用

pandas常用数据类型:

  • Series :一维,带标签数组
  • DataFrame: 二维,是Series容器
  1. series创建:

注:pd.series(a,index),其中index相当于字典的键,a相当于字典的值(直接创建);a也可以是一个字典,index为a中的键(字典创建);或者pd.series(a),直接通过字典创建,a为字典
在这里插入图片描述

  1. series切片,索引

在这里插入图片描述
3. series获取索引及其值
在这里插入图片描述
pandas读取外部数据:

pandas自带的read方法就可以读取大部分的文档,下图仅为部分函数
在这里插入图片描述

  1. Dataframe创建:
    在这里插入图片描述
    DataFrame对象既有行索引,又有列索引
    行索引,表明不同行,横向索引,叫index,0轴,axis=0
    列索引,表名不同列,纵向索引,叫columns,1轴,axis=1

布尔索引:类似于numpy中的 series的布尔索引,在有多个条件时,中间用&或|连接

 pandas字符串方法

  • pandas中head(a)方法:查看数据中的前a行数据,默认为前5行数据
  • data.info():给出样本数据的相关信息概览 :行数,列数,列索引,列非空值个数,列类型,内存占用

注:集合{a,b,c},可通过set()来创建,其是一组key的集合,但不存储value,并且key不能重复;
重复元素在集合中自动被过滤

  • DataFrame常用方法:(.describe()方法较为常用)

在这里插入图片描述
读取mongodb:
在这里插入图片描述

  • 获取使用次数最高的前几个名字: df.sort_values(by=“Count_AnimalName”,ascending=False)
    注: ascending默认为true,即升序

  • 使用次数前100的数据:
    df_sorted = df.sort_values(by=“Count_AnimalName”)
    df_sorted[:100]

  • 具体要选择某一列:
    df[" Count_AnimalName "]

  • 同时选择行和列改怎么办?

  • df[:100][" Count_AnimalName "]

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 布尔索引:(通过内部的布尔判断条件进行索引)
    在这里插入图片描述
  • 找到所有的使用次数超过700并且名字的字符串的长度大于4的狗的名字
    (用&和|时要注意用括号括起来)
    在这里插入图片描述
    在这里插入图片描述
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值