peteryoung1989-CSDN博客

原创 Pandas时间序列数据处理

时间序列数据是以时间为自变量，描述对象在时间过程中的发展、变化。比如，超市每天的销售额，景区每天的旅客流量等。因此，处理时间序列数据是pandas数据分析中重要的一类方法。一、时间索引转换一般来说，我们获得的数据不是以时间作为索引的。即使原始数据的第一列是时间，当我们导入python后仍然会重新建立索引。例如，我们将一个超市每天的销售额导入：In: p1=pd.read_csv(‘time_series.csv’) pd.Dataframe(p1).head()out: ...

2020-06-30 00:02:53 477

原创 Pandas中的分类

一、分类变量的结构一个分类变量包括三个部分，元素值（values）、分类类别（categories）、是否有序（order）从上面可以看出，使用cut函数创建的分类变量默认为有序分类变量（一）获取分类属性（a）describe方法该方法描述了一个分类序列的情况，包括非缺失值个数、元素值类别数（不是分类类别数）、最多次出现的元素及其频数。比如：In: s = pd.Series(pd.Categorical(["a", "b", "c", "a",np.nan], categories

2020-06-27 23:52:20 1134

原创 pandas文本数据处理的五种操作

拆分、拼接、替换、提取和匹配是pandas关于文本数据的五种常用操作。五种操作相辅相成，共同撑起了pandas文本数据处理能力。一、拆分str.splitstr.split方法可以指定某一种特定的符号作为分割符，比如“_”，默认一般为空格。需要注意的是split后的类型是object，因为现在Series中的元素已经不是string，而包含了list，且string类型只能含有字符串。对于str方法可以进行元素的选择，如果该单元格元素是列表，那么str[i]表示取出第i个元素，如果是单个元素，则先把

2020-06-26 18:21:58 1534

原创 Pandas中数据的缺失处理

在pandas数据处理中，数据值缺失是经常面临的问题。如何查找、处理缺失值就成了数据处理的必备方法。一、缺失值类型Pandas中缺失值主要有三种符号：np.nan、None和NaT。np.nan是缺失值的一种符号，nan意为not a number。它不等于任何东西，包括它本身。其次，在使用equals函数进行比较时，会自动略过两侧全是np.nan的单元格。再次，它在numpy中的类型为浮点，由此导致数据集读入时，即使原来是整数的列，只要有缺失值就会变为浮点型。此外，对于布尔类型的列表，如果是n

2020-06-23 23:44:13 1869

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人