pandas基础知识总结

@pandas基础知识总结

问题

【问题一】 Series和DataFrame有哪些常见属性和方法?

Series:

    value:获取数组的值
    index:获取索引
    name:series的name
    dtype:数组元素类型

Series():创建Series
.drop():删除指定项

Dataframe:

    Series属性
    columns:列索引(列名)

.rename():修改行或列名
.pop()/.drop():删除
.head():取前n行/列
.tail():取后n行/列
.unique():显示所有的唯一值
.nunique:显示有多少个唯一值
.count():返回非缺失值元素个数
.value_counts():返回每个元素有多少个
.clip():是对超过或者低于某些值的数进行截断
.replace():是对某些值进行替换
.set_index():索引排序
.sort_values():值排序

【问题二】 value_counts会统计缺失值吗?

不会,value_counts只统计每个元素的数量,不统计缺失值

【问题三】 与idxmax和nlargest功能相反的是哪两组函数?

idxmax函数返回最大值,nlargest函数返回前几个大的元素值
功能相反的函数:idxmin:返回最小值,nsmallest:返回前几个大的元素值

【问题四】 在常用函数一节中,由于一些函数的功能比较简单,因此没有列入,现在将它们列在下面,请分别说明它们的用途并尝试使用。

sum/mean/median/mad/min/max/abs/std/var/quantile/cummax/cumsum/cumprod

sum():对行/列求和
mean():求平均值
median():求中位数
mad():根据平均值计算平均绝对利差
min()/max():最小值/最大值
abs():求绝对值
std():求标准差
var():求方差
quantile():求分位数
cummax():求累积最大值
cumsum():求累加和
cumprod():求累积乘积

【问题五】 df.mean(axis=1)是什么意思?它与df.mean()的结果一样吗?第一问提到的函数也有axis参数吗?怎么使用?

axis=1:对行操作,axis=0:对列操作

练习

【练习一】 现有一份关于美剧《权力的游戏》剧本的数据集,请解决以下问题:

在这里插入图片描述
(a)在所有的数据中,一共出现了多少人物?

import pandas as pd
#从文件读取数据
df=pd.read_csv('C:\\Users\\74765\\Desktop\\joyful-pandas\\data\\Game_of_Thrones_Script.csv')
num_charactors=df['Name'].value_counts().size    #求一共出现多少人物

(b)以单元格计数(即简单把一个单元格视作一句),谁说了最多的话?

one_maxwords=df['Name'].value_counts().idxmax()     #求谁说了最多的话

(c)以单词计数,谁说了最多的单词?

for index in df.index:#统计每句台词的单词数
    words=df.loc[index,'Sentence']#提取台词
    nwords=words.split(" ")#按空格分离单词
    df.loc[index,'nwords']=len(nwords)#新建一列,存入对应台词的单词数

bool_list=df.duplicated(subset='Name')#判断是否人物是否重复,未重复为false,重复为true
df1=pd.Series(name='Name',index={0:num_charactors})#存放姓名,长度为人物总数
df2=pd.Series(name='nwords',index={0:num_charactors})#记录单词总数,与姓名对应
m=-1#索引
for index in df.index:
    if bool_list[index]==False:#如果未重复,则记录姓名和单词数
        m=m+1
        df1[m]=df.loc[index,'Name']
        df2[m]=df.loc[index,'nwords']
    else:#如果重复,则在相应位置累加单词数
        n=df1[df1.values==df.loc[index,'Name']].index #匹配姓名,返回索引
        df2.loc[n]+=df.loc[index,'nwords']
one_maxnwords=df1[df2.idxmax()]
  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Pandas的重点知识点主要包括以下几个方面: 1. Pandas与NumPy的关系:Pandas是基于NumPy实现的,它们互为补充。Pandas的核心数据结构与NumPy的ndarray相似,但Pandas在数据处理方面更强大和智能,而NumPy更基础和强大。 2. 数据分析中的Data Frame操作:Data Frame是Pandas中最常用的数据结构,类似于Excel中的表格。对Data Frame进行各种操作是进行数据分析的基础操作,比如数据筛选、排序、切片等。 3. 分组聚合:利用Pandas进行数据分析时,经常需要根据某些特征将数据分组,并对每个分组进行聚合计算,如求和、计数、均等。这种分组聚合操作可以帮助我们快速统计和分析数据。 4. Series:Series是Pandas中的一维数据结构,类似于Excel中的列。它由一组数据和与之关联的索引组成,可以对数据进行标签化的访问和操作。 总结来说,Pandas的重点知识点包括Pandas与NumPy的关系、Data Frame的操作、分组聚合以及Series的使用。掌握这些知识点可以帮助你更好地进行数据分析和处理。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [Pandas知识点超全总结](https://blog.csdn.net/Itsme_MrJJ/article/details/126101002)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值