这次试用的数据不是第一篇用过的数据,而是从拉勾网重新抓取的数据分析师的数据。本次主要练习数据的读取、数据概述、数据清洗以及简单的数据分析,主要用到pandas包。
首先读取抓取的数据,用到pandas,抽取前5行的数据观察
import numpy as np
import pandas as pd
fileNameStr='./抓取.xlsx'
xls = pd.ExcelFile(fileNameStr)
salesDf = xls.parse('sheet1')
salesDf.head()
通过切片功能,获取指定范围的列
sub_df = salesDf.loc[:,'职位名称': '公司类型']
sub_df.head()
查看是否有缺失值
#查看是否有缺失值
sub_df.info()
代码返回的字段都是450个数据,每列都没有空值
查看是否有重复值
#先使用duplicated来检测是否有重复值,这里括号中不带参数则是查找是否每一列都是完全相同
sub_df.duplicated()
#结果显示存在重复值,则继续删去即可
sub_df.drop_duplicates()
去