对序列进行数据数据,
一,删除序列中的重复值
当序列中存在重复值时,可以删除重复值,使序列中的值是唯一的:
Series.drop_duplicates(self, keep='first', inplace=False)
参数keep:有效值是first(保留第一个,删除后面出现的重复值),last(保留最后一个,删除前面出现的重复值),false(不保留,把重复的数据删除),默认值是保留第一个,
>>> s=pd.Series([1,1,2,3,4,4,5]) >>> s.drop_duplicates() 0 1 2 2 3 3 4 4 6 5 dtype: int64
二,标记序列中的重复值
把序列中出现重复值的位置用True来标识:
Series.duplicated(self, keep='first')
三,选择序列中的元素
从序列中选择前n行、后n行、任意连续位置的数据
Series.head(self, n=5) Series.tail(self, n=5) Series.take(self, indices, axis=0, is_copy=False, **kwargs)
参数注释:
- indices:一维数组,用于表示axis的序号,如果axis=0,那么indices表示的是索引
- axis:0表示索引,1表示列(columns),对于序列,axis的值只能是0.
比如,用take函数获取索引为1和5的序列元素:
>>> s=pd.Series([1,1,2,3,4,4,5]) >>> s.take([1,5]) 1 1 5 4 dtype: int64
四,检查是否存在特定值
检查序列中是否存在特定的值,参数values是集合或列表,从序列中逐个元素比对是否存在values中的值,如果存在,那么该元素所在的位置上设置为True;如果不存在,那么该元素所在的位置上设置为False。
Series.isin(self, values)
该函数返回的是bool序列,例如:
>>> s = pd.Series(['lama', 'cow