自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 Pandas时间序列数据处理

时间序列数据是以时间为自变量,描述对象在时间过程中的发展、变化。比如,超市每天的销售额,景区每天的旅客流量等。因此,处理时间序列数据是pandas数据分析中重要的一类方法。一、时间索引转换一般来说,我们获得的数据不是以时间作为索引的。即使原始数据的第一列是时间,当我们导入python后仍然会重新建立索引。例如,我们将一个超市每天的销售额导入:In: p1=pd.read_csv(‘time_series.csv’) pd.Dataframe(p1).head()out: ...

2020-06-30 00:02:53 457

原创 Pandas中的分类

一、分类变量的结构一个分类变量包括三个部分,元素值(values)、分类类别(categories)、是否有序(order)从上面可以看出,使用cut函数创建的分类变量默认为有序分类变量(一)获取分类属性(a)describe方法该方法描述了一个分类序列的情况,包括非缺失值个数、元素值类别数(不是分类类别数)、最多次出现的元素及其频数。比如:In: s = pd.Series(pd.Categorical(["a", "b", "c", "a",np.nan], categories

2020-06-27 23:52:20 1114

原创 pandas文本数据处理的五种操作

拆分、拼接、替换、提取和匹配是pandas关于文本数据的五种常用操作。五种操作相辅相成,共同撑起了pandas文本数据处理能力。一、拆分str.splitstr.split方法可以指定某一种特定的符号作为分割符,比如“_”,默认一般为空格。需要注意的是split后的类型是object,因为现在Series中的元素已经不是string,而包含了list,且string类型只能含有字符串。对于str方法可以进行元素的选择,如果该单元格元素是列表,那么str[i]表示取出第i个元素,如果是单个元素,则先把

2020-06-26 18:21:58 1507

原创 Pandas中数据的缺失处理

在pandas数据处理中,数据值缺失是经常面临的问题。如何查找、处理缺失值就成了数据处理的必备方法。一、缺失值类型Pandas中缺失值主要有三种符号:np.nan、None和NaT。np.nan是缺失值的一种符号,nan意为not a number。它不等于任何东西,包括它本身。其次,在使用equals函数进行比较时,会自动略过两侧全是np.nan的单元格。再次,它在numpy中的类型为浮点,由此导致数据集读入时,即使原来是整数的列,只要有缺失值就会变为浮点型。此外,对于布尔类型的列表,如果是n

2020-06-23 23:44:13 1843

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除