- 博客(4)
- 收藏
- 关注
原创 Pandas时间序列数据处理
时间序列数据是以时间为自变量,描述对象在时间过程中的发展、变化。比如,超市每天的销售额,景区每天的旅客流量等。因此,处理时间序列数据是pandas数据分析中重要的一类方法。一、时间索引转换一般来说,我们获得的数据不是以时间作为索引的。即使原始数据的第一列是时间,当我们导入python后仍然会重新建立索引。例如,我们将一个超市每天的销售额导入:In: p1=pd.read_csv(‘time_series.csv’) pd.Dataframe(p1).head()out: ...
2020-06-30 00:02:53 477
原创 Pandas中的分类
一、分类变量的结构一个分类变量包括三个部分,元素值(values)、分类类别(categories)、是否有序(order)从上面可以看出,使用cut函数创建的分类变量默认为有序分类变量(一)获取分类属性(a)describe方法该方法描述了一个分类序列的情况,包括非缺失值个数、元素值类别数(不是分类类别数)、最多次出现的元素及其频数。比如:In: s = pd.Series(pd.Categorical(["a", "b", "c", "a",np.nan], categories
2020-06-27 23:52:20 1134
原创 pandas文本数据处理的五种操作
拆分、拼接、替换、提取和匹配是pandas关于文本数据的五种常用操作。五种操作相辅相成,共同撑起了pandas文本数据处理能力。一、拆分str.splitstr.split方法可以指定某一种特定的符号作为分割符,比如“_”,默认一般为空格。需要注意的是split后的类型是object,因为现在Series中的元素已经不是string,而包含了list,且string类型只能含有字符串。对于str方法可以进行元素的选择,如果该单元格元素是列表,那么str[i]表示取出第i个元素,如果是单个元素,则先把
2020-06-26 18:21:58 1534
原创 Pandas中数据的缺失处理
在pandas数据处理中,数据值缺失是经常面临的问题。如何查找、处理缺失值就成了数据处理的必备方法。一、缺失值类型Pandas中缺失值主要有三种符号:np.nan、None和NaT。np.nan是缺失值的一种符号,nan意为not a number。它不等于任何东西,包括它本身。其次,在使用equals函数进行比较时,会自动略过两侧全是np.nan的单元格。再次,它在numpy中的类型为浮点,由此导致数据集读入时,即使原来是整数的列,只要有缺失值就会变为浮点型。此外,对于布尔类型的列表,如果是n
2020-06-23 23:44:13 1869
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人