文章目录
数据清洗常用工具
- 目前在Python中, numpy和pandas是最主流的工具
- Numpy中的向量化运算使得数据处理变得高效
- Pandas提供了大量数据清洗的高效方法
- 在Python中,尽可能多的使用numpy和pandas中的 函数,提高数据清洗的效率
1.Numpy
1.1 Numpy常用数据结构
- Numpy中常用的数据结构是ndarray格式
- 使用array函数创建,语法格式为array(列表或元组)
- 可以使用其他函数例如arange、linspace、zeros等创建
1.2 Numpy常用方法
1.3 数据访问方法
array[a,b]
a: 代表行索引
b: 代表列索引
1.4 Numpy常用清洗函数
- np.sort: 从小到大进行排序
- np.argsort: 返回的是数据中, 从小到大的索引值
- np.where:可以自定义返回满足条件的情况
- np.extract:返回满足条件的元素值
2. Pandas
2.1 Pandas常用数据结构series和方法
- 通过pandas.Series来创建Series数据结构。
pandas.Series(data,index,dtype,name)
。- 上述参数中,data可以为列表,array或者dict。
- 上述参数中, index表示索引,必须与数据同长度,name代表对象的名称
2.2 Pandas常用数据结构dataframe和方法
- 通过pandas.DataFrame来创建DataFrame数据结构。
pandas. DataFrame(data,index,dtype,columns)
。- 上述参数中,data可以为列表,array或者dict。
- 上述参数中, index表示行索引, columns代表列名或者列标签