![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
pandas
文章平均质量分 71
大哇唧
这个作者很懒,什么都没留下…
展开
-
数据清洗:缺失值识别和处理方法
缺失值识别数据缺失分为两种:一是行记录的缺失,这种情况也定义为数据记录丢失;二是数据列值的缺失,指由于各种原因导致的数据记录中某些列的值空缺,不同的数据存储和环境中对于缺失值的表示结果不同,例如数据库中是Null、Python返回对象是None、Pandas或Numpy中是NaN。示例如下:#导入相关库import pandas as pd import numpy as np # 生成缺失数据df = pd.DataFrame(np.random.randn(6, 4),原创 2022-05-08 19:08:08 · 5201 阅读 · 0 评论 -
Python3将时间数据转化为周几等离散数据
思路一:通过日历查询到具体日期属于一周中的哪一天,但考虑到数据量很大,这种方法耗时耗力。思路二:偶然发现python里的内置函数weekday(),可以直接将timestamp对象转化。Pandas里的to_datetime函数可将字符串类型的时间数据转化为timestamp对象。代码如下:import pandas as pdpd.to_datetime("2018-10-16...原创 2018-10-16 17:49:36 · 2628 阅读 · 0 评论 -
pandas中merge/join方法
merge类似于数据库中的join,根据左右对象同名列为键pandas.merge(left,right,how='inner',on=None,left_on=None,right_on=None,left_index=False,right_index=False,sort=False,suffixes=('_x','_y'),copy=True,indicator=False,validate=None)默认连接方式为how='inner',也可以选择left/...原创 2022-04-28 11:15:52 · 3245 阅读 · 0 评论 -
数据清洗:异常值识别和处理方法
异常数据识别异常数据是数据分布的常态,处于特定分布区域之外的数据通常会被定义为异常或“噪音”。产生数据“噪音”的原因很多,例如业务运营操作、数据采集问题、数据同步问题等。对异常数据进行处理前,需要先辨别出哪些是真正的数据异常。从数据异常的状态看分为两种:一种是“伪异常”,这些异常是由于特定的运营动作产生,其实正常反映了业务状态。 一种是“真异常”,这些异常并不是由于特定的业务动作引起,而是客观反映了数据本身的分布异常。如何判断异常值对于有固定业务规则的可直接套用业务规则,而对于没有固定业原创 2022-04-27 23:59:13 · 5259 阅读 · 0 评论 -
数据清洗:重复值识别和处理方法
重复值识别数据集中的重复值包括以下两种情况:数据值完全相同的多条数据记录; 数据主体相同但匹配到的唯一属性值不同。示例如下:# 导入pandas库import pandas as pd # 生成重复数据,data1和data3完全相同data1 = ['a', 3]data2 = ['b', 2]data3 = ['a', 3]data4 = ['c', 2]df = pd.DataFrame([data1, data2, data3, data4], columns=[原创 2022-04-27 23:34:24 · 5031 阅读 · 0 评论 -
pandas中apply/map/applymap函数
目录applymapapplymap总结apply语法:DataFrame.apply(func, axis=0, raw=False, result_type=None, args=(), **kwargs)按照DataFrame的轴应用函数,沿每一行或每一列应用,传递给函数的对象是Series。参数func传入的是函数。参数axis = 0表示沿每一列应用,axis = 1表示沿每一行应用。其他参数详解见pandas.DataFrame.apply — pandas原创 2022-04-23 16:35:16 · 1811 阅读 · 0 评论 -
pandas中concat/append方法
concatconcat⽅法类似于数据库中的不去重的全连接(UNION ALL),可以指定按某个轴连接axis(参数0/1等数字),也可以指定另一个轴连接的⽅式join(参数可选择outer/inner)。concat的语法:pandas.concat(objs, axis=0, join='outer', ignore_index=False,keys=None, levels=None, names=None, verify_integrity=False, copy=True):imp原创 2022-04-28 09:59:30 · 3204 阅读 · 0 评论