自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 apply()与applymap()函数

我们在Python基础知识部分讲过一个Python的高级特性map()函数,map()函数是对一个序列中的所有元素执行相同的函数操作。在DataFrame中与map()函数类似的函数有两个,一个是apply()函数,另一个是applymap()函数。函数apply()和applymap()都需要与匿名函数lambda结合使用。apply()函数主要用于对DataFrame中的某一column或row中的元素执行相同的函数操作。...

2021-05-28 17:10:41 327

原创 如何统计一列中姓名重复出现的次数,并且只标注在第一次出现姓名的位子

等同于以下这个工作中的问题:

2021-05-28 11:17:32 1904

原创 pandas 获取不符合条件/不包含某个字符串的dataframe

作中数据的处理中往往会遇到筛选出不符合条件的或者不包含某个字符的dataframe,我们会如何去做呢?可能你会想到用python写一个函数,然后用panda的apply函数或者map函数来进行处理,不可否认这是一中方法,但是实际上pandas中已经给我们开发了这样的函数,那我们为什么不直接调用呢?首先看一下,怎么筛选出包含某些字符串的数据#这是使用语法,模糊匹配df[ df['通信名称'].str.contains('联通|移动|小灵通|电信')] #这一种方法不是匹配,而是等于后面列表

2021-05-26 15:59:01 835

原创 DataFrame里的replace替换

一对一替换:在Python中对某个值进行替换利用的是replace()方法,replace(A,B)表示将A替换成B。有时候要对整个表进行替换,比如对全表中的缺失值进行替换,这个时候replace()方法就相当于fillna()方法了。多对一替换:多对一替换就是把一块区域中的多个值替换成某一个值,已知现在有三个异常年龄(240、260、280),需要把这三个年龄都替换成正常范围年龄的平均值33,该怎么实现呢?在 Python 中实现多对一的替换比较简单,同样也是利用 rep.

2021-05-26 15:24:04 13483

原创 异常值的检测

要处理异常值首先要检测,也就是发现异常值,发现异常值的方式主要有以下三种。● 根据业务经验划定不同指标的正常范围,超过该范围的值算作异常值。● 通过绘制箱形图,把大于(小于)箱形图上边缘(下边缘)的点称为异常值。● 如果数据服从正态分布,则可以利用3σ 原则;如果一个数值与平均值之间的偏差超过3倍标准差,那么我们就认为这个值是异常值。下图为正态分布图,我们把大于μ+3σ的值称为异常值:...

2021-05-25 15:42:26 661

原创 导入csv文件时encoding和engine的指定

指定编码格式Python用得比较多的两种编码格式是UTF-8和gbk,默认编码格式是UTF-8。我们要根据导入文件本身的编码格式进行设置,通过设置参数encoding来设置导入的编码格式。有的时候两个文件看起来一样,它们的文件名一样,格式也一样,但如果它们的编码格式不一样,也是不一样的文件,比如当你把一个Excel文件另存为时会出现两个选项,虽然都是.csv文件,但是这两种格式代表两种不同的文件,如下图所示:如果是CSV UTF-8(逗号分隔)(*.csv)格式的文件,那么导入时就需要加en.

2021-05-24 17:21:25 1133

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除