pandas 第一列_Pandas工具箱

本文参照油管的一个pandas的系列教程:

https://www.youtube.com/watch?v=ZyhVh-qRZPA&list=PL-osiE80TeTsWmV9i9c58mdDCSskIFdDS​www.youtube.com

-----

导入pandas并且读取文件

a5ae2e12fe05acbdedf2d9c947a528a0.png

导入的时候把第一列设置为index

c96d1c5ec3761dc1ba9fdff0902a74e9.png

查看行数和列数

78f5878cc9228030c5f62e939502adea.png

FILTER篇

在特定列中选出符合标准的行,方法#1。

d6a759d8e477dd7a7b8a2cead7c69caf.png

b05dc2ee4c846c012fb0e10dd3072598.png

eafb66b64f78188a119a8b0c160a1596.png

在filter中用&:

c520a54c4612aa9bb9bff78e0a039f9b.png

用or:

c9b7db68b26fa5da51cd916f4e477816.png

在特定列中选出符合标准的行,方法#2

47e44f73ce776b76f94edf0457d82d02.png

在特定列中选出符合标准的行#3。适用于选择一系列特定的基因。

9fca87a2157f938aa5bad85192be4ede.png

在特定列中选出符合标准的行#4。string中包含关键字,且不算空白单元NA。

3d3948323932362a4c188831be0cb8d5.png

替换数据篇

替换列的名字。

25fd47fd8fbdfba576d5fca7239da713.png

另一种方式替换。

be5bb81e6673f78053eea97cb3941ddb.png

把列的名字大写化。

635a0c345cd7c50c30e5b25a3dcb0c51.png

把列的部分名字进行替换。

328e98bfdad4233790e1bee1afe55abb.png

替换某列的名字。

020d594e217531c0105ded7fa9c049c5.png

替换行的内容。

b7bee97bc02ffe57bdbba008e9ca07ae.png

替换行的内容#2。

7af301d2aa12ebc92363a5b3452e55f8.png

替换某行某列。先行后列。

f7c3036746d14ab27b7b98cb38af267b.png

替换某行某列#2。先列后行。

eecd53a3473b9b4ecd542e6e2a6b07e5.png

将某列内容小写化。

9390d6f4681ce4e25f6bac3ebd9ce952.png

运用apply()把某列内容更改。

395a248b041cbe81a0c06aa190bd4a21.png

7a7eadb96d2669faf58267fbf6a06380.png

把某列内容的yes 和no替换成True和False。map的功能和replace相似,用map的原因是这列只有yes和no,这里的map也可以换成replace。

9ebec7bc01279ecce696c38cb02c6d95.png

增加或减少列/行/df

将两列内容合并,并另起一列。

c57752213b204ff6c7ae21406c26a666.png

f449cf68b04da3af5effbd9133e0036e.png

去掉特定列。

b411c79add23febfcd3792c31e894fae.png

将某列以空格为分界线拆成两列,并添加进df。

561672c2ca4a08d5920c6a17456dea2f.png

添加新行的内容。注意ignore_index=True,因为有一些信息为空白。

5048baf5e19766e6c39da8870f7ed686.png

添加另一个df。

478c5eeed0d68e8c4f445097d6d5fb6c.png

89207a1114a4ce04a52901e1e752ad3b.png

去掉特定行。#用index数。

0772ae8f6e86b233a14b554df1e08ea1.png

去掉特定行。#用filter。

5699e64e9e9075fabc3be4972bea8b13.png

排序篇

先排last降序,后排first升序。

32c0ec7b7a96697c27c876c934b8ae9c.png

保存的话加inplace=True

9727223dc70c3748e605f3fbb0462930.png

按index排序。

d7cd5253c4f829bb68ed6c0003e035e5.png

按某列内的值排序#1。

5bc77d5b95145c4acf92ae477d6fbbb3.png

按某列内的值排序#2。

2cf77fd8a2c2f9499a67719c114cdb14.png

按某几列内的值排序#3。先排country升序,后排ConvertedComp降序。

ecaed27fd8ef75d74a4482c4d7125a81.png

查看某列最大的10个数。只显示index和数,没有其他信息。

8ccba698b94ff696879cc563adfec661.png

查看这10个数的行。除了index和数,还有其它信息。nlargest也可以换成nsmallest。

4fc5f3c1afacaed645a983f28257dba0.png

---

保存csv格式

a610f0ac1f010a7e1f58adddff7bde9f.png
### 回答1: 在Pandas中,可以使用`describe()`函数来获取数据的基本统计信息,如最大值、最小值、均值、中位数和四分位数等。而箱线图就是基于四分位数来绘制的,因此我们可以利用`describe()`函数来获取四分位数,并根据四分位数来去除异常值。 具体地,我们可以使用以下代码来去除异常值: ```python import pandas as pd import numpy as np # 生成随机数据 data = pd.DataFrame(np.random.randn(100, 4), columns=['A', 'B', 'C', 'D']) # 获取四分位数 q1 = data.quantile(q=0.25) q3 = data.quantile(q=0.75) iqr = q3 - q1 # 去除异常值 data = data[~((data < (q1 - 1.5 * iqr)) | (data > (q3 + 1.5 * iqr))).any(axis=1)] # 绘制箱线图 data.plot(kind='box') ``` 这段代码首先生成了一个随机数据集,然后使用`quantile()`函数获取数据的四分位数,接着计算出IQR(即四分位距),最后使用`any()`函数和`~`符号去除了异常值,并绘制了箱线图。 ### 回答2: Pandas是一个开源的Python数据分析库,它提供了丰富的数据处理和分析工具。而箱线图是一种可视化工具,用于显示数据的分布情况以及异常值的存在。 绘制箱线图的第一步是先获取数据并使用Pandas进行数据清洗和预处理。在数据清洗过程中,可以使用Pandas中的函数来处理缺失值或异常值。 在Pandas中,可以使用`read_csv()`函数导入数据,并使用`dropna()`函数删除含有缺失值的行或列。接下来,使用`describe()`函数来获取数据的统计信息,包括均值、标准差、最小值、最大值等。 绘制箱线图需要用到Matplotlib库,而Pandas对Matplotlib进行了封装,因此可以直接通过Pandas的绘图函数来绘制箱线图。使用`plot()`函数,并将参数`kind='box'`设置为绘制箱线图。 由于箱线图能够展示数据的分布情况和异常值,所以绘制好箱线图后,我们可以根据箱线图中的异常值来进行处理。一般来说,箱线图中被定义为异常值的数据是根据统计学的常用方法,例如Tukey's fences或三个标准差等。 对于异常值的处理,可以根据业务需求来选择是删除异常值、替换为其他值或者保留原样。如果要删除异常值,可以使用Pandas的`drop()`函数或者通过布尔索引进行过滤。如果要替换异常值,可以使用Pandas的`fillna()`函数或者其他相关函数进行处理。 综上所述,Pandas提供了强大的数据处理和分析功能,而通过使用Pandas绘制箱线图可以帮助我们快速发现异常值并进行处理。 ### 回答3: pandas是一个功能强大的Python库,用于数据处理和分析。它提供了一个方便的功能来可视化数据,其中之一就是绘制箱线图。 箱线图是一种可视化工具,用于显示数据的分布情况和异常值。它显示了数据的中位数、上下四分位数和上下边界。通过绘制箱线图,可以很容易地检测到是否存在异常值。 要使用pandas绘制箱线图并去除异常值,可以按照以下步骤进行操作: 1. 导入pandas库和绘图库(如matplotlib)。 ```python import pandas as pd import matplotlib.pyplot as plt ``` 2. 读取数据源。可以从文件中读取数据,如CSV文件,或者直接使用numpy数组。 ```python data = pd.read_csv('data.csv') ``` 3. 创建一个箱线图。可以使用`boxplot()`函数创建箱线图,并通过指定数据列来绘制。 ```python plt.figure() data.boxplot(column=['column1', 'column2', ...]) ``` 4. 去除异常值。可以通过设定箱线图中的上下边界来去除异常值。一般来说,异常值可以定义为超过上下四分位数一定倍数的值。默认情况下,pandas将上下边界设为1.5倍的四分位距。 ```python plt.figure() data.boxplot(column=['column1', 'column2', ...], whis=1.5) ``` 5. 显示绘制结果。 ```python plt.show() ``` 通过以上步骤,就可以使用pandas绘制箱线图,并去除异常值。根据箱线图的结果,我们可以很容易地观察到数据的分布情况和异常值,以便进行进一步的数据分析和处理。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值