数据分析 day05(二)

数据处理

导入模块

import numpy as np
import pandas as pd
from pandas import Series,DataFrame

1、聚合操作

创建一个DataFrame对象
在这里插入图片描述

  1. 进行加聚合
    字符串类型全部拼接处理,数字类型相加
    在这里插入图片描述

  2. 最大值
    字符串按ASCII码比较
    在这里插入图片描述

  3. 根据行/列进行聚合
    根据axis的值
    在这里插入图片描述

2、重复元素处理

如果某一行不是第一次出现,这一行就是重复
【注意】重复都是对行而言,列不存重复问题

在这里插入图片描述

  1. 检测重复 duplicated()
    在这里插入图片描述
  2. 删除重复 drop_duplicates(inplace=True)
    在这里插入图片描述

3、映射

映射的含义:在一个关系表中,把某些值和某个特定的键绑定在一起,就构成了一个映射

映射的形式:

字典是一种映射:{“a”:123,“b”:456,“c”:145}

函数是一种映射:

def func(a,b): return a+b

 	lambda x: x+10
3.1 replace函数:替换元素

replace函数,参数是一个映射(这个映射只能用字典来表示)
这个函数会把df中所有的数据都带入到映射中,如果某个数据在映射能够找到对应的键就会被替换成该键对应的值

把所有Bill替换成Rose

  1. 使用DataFrame方法
    在这里插入图片描述
    把所有Bill替换成Rose
    在这里插入图片描述
  1. 使用replace函数方法
    在这里插入图片描述
    把所有的 xiaoming替换成daming Bill替换成Rose 并把成绩为78的成绩改为50
    在这里插入图片描述

练习: 创建一个张三李四四门考试成绩的表,表中要有几个满分;老师认为满分就是作弊,设置为0
在这里插入图片描述

3.2 map函数

map函数,用Series调用,把Series的每一个value都带入到映射中去,然后得出映射的值和对应index构成一个新的Series
创建一个DataFrame对象
在这里插入图片描述
把Series的每一个value都带入到映射中去,然后得出映射的值和对应index构成一个新的Series,如果映射中没有对应的值,则用NaN补齐
在这里插入图片描述

  1. 判断哪些人的数学成绩及格(60以上)
    在这里插入图片描述
  2. 根据java成绩映射出一个C语言成绩作为一个新的列
    C的成绩是java成绩减5分
    先根据java映射出一个新的的列
    在这里插入图片描述
    将新的列加入表中
    在这里插入图片描述
3.3 rename函数

在这里插入图片描述

3.4 随机取样

当我们无法研究一个数据群中所有数据时,往往我们会采用随机取样,取出一个随机的样本,用样本的特性来代表总体的特性,这种研究方法叫做随机取样法

创建一个DataFrame对象,包含10000个元素为0~10000的随机数
在这里插入图片描述
从以上10000条数据中取出一个100的样本

  1. 方案一 : 用随机生成的ind切片切出100个
    在这里插入图片描述
    这种方案容易取重复,如果某些数据要求的严谨性高的话行不通

  2. 方案二
    1)把下标0-9999随机打乱
    这里随机打乱以后不会出现重复现象
    在这里插入图片描述
    2)从随机打乱的那些索引中切100个即可
    在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值