1、使用pandas进行数据清洗
1.1、数据问题
- 没有列头
- 一个列有多个参数
- 列数据的单位不统一
- 缺失值
- 重复数据
- 非ASCII 字符
- 有些列头应该是数据,而不应该是列名参数
1.2、读取数据
使用pandas读取数据时,如果原数据没有列名,需要指定列名,否则pandas将会默认使用第一行数据当做列名
1.3、切分列
函数用法:split(sep,n,expand=false)
sep表示用于分割的字符;n表格分割成多少列;expand表示是否展开为DataFrame,True输出Series,False输出Dataframe。
像name列含有firstname和lastname 需要将其拆分成两列