数据分析数据清洗基础教程
- 数据分析常用的清洗工具
目前在Python中, numpy和pandas是最主流的工具Numpy中的向量化运算使得数据处理变得高效Pandas提供了大量数据清洗的高效方法在Python中,尽可能多的使用numpy和pandas中的函数,提高数据清洗的效率- Numpy
- Numpy常用数据结构
Numpy中常用的数据结构是ndarray格式(列表或元组)
- Numpy常用方法
ndim: 返回int,表示ndarray的维度
shape:返回尺寸,几行几列
size:返回数组元素的个数
dtype:返回数组中元素的类型
运算:直接可以在每个元素加减乘除
- Numpy常用数据清洗方法
- 1、排序函数
- sort:索引排序
默认升序
可以用reverse函数降序 sorted(arr, reverse = True)
- argsort:数值排序
- sort:索引排序
- 2、数据的搜索
- np.Where:返回满足条件的情况
# 大于3,且满足条件返回1,否则返回-1
np.Where(arr>3, 1, -1)
- np.extract: 返回满足条件的元素值——只输出满足条件的数据
np.extract(arr>3,arr)
- np.Where:返回满足条件的情况
- 1、排序函数
- Numpy常用数据结构
- Pandas
- Pandas常用数据结构Series和方法
通过pandas.Series来创建Series数据结构。
pandas.Series(data,index,dtype,name)。
——data可以为列表,array或者dict;index表示索引,必须与数据同长度,name代表对象的名称
- Pandas常用数据结构DataFrame和方法
通过pandas.DataFrame来创建DataFrame数据结构。
pandas. DataFrame(data,index,dtype,columns)。
——data可以为列表,array或者dict;index表示行索引, columns代表列名或者列标签
- Series和DataFrame常用方法
values 返回对象所有元素的值
index 返回行索引
dtypes 返回索引
shape 返回对象数据形状
ndim 返回对象的维度
size 返回对象的个数
columns 返回列标签(只针对dataframe数据结构)
- Pandas常用数据结构Series和方法
- Numpy
- 数据清洗之文件操作