一、提出问题
1. 对G列进行数据清洗,按照无、2000-3999、4000-5999、6000-7999、8000-9999、1万以上进行归类。
2. 对AA列进行数据清洗,要求分成三类:全包含“Photoshop、CorelDRAW,AI”三项技能;包含其中的一或两项;完全不包含。
3. 根据清洗后的G列AA列,以及E列、X列四列数据对求职者信息进行分类,可根据匹配度尝试分成4-5类,并尝试对分类结果进行文字解读。
二、查看数据
2.1 导入数据
# 导入数据
import pandas as pd
df = pd.read_excel('data.xlsx')
2.2 查看数据
# 查看每一列的数据类型,和数据总数
df.info()
<class 'pandas.core.frame.DataFrame'> RangeIndex: 1430 entries, 0 to 1429 Data columns (total 27 columns): 简历号 1430 non-null int64 应聘职位 1430 non-null object 性别 1430 non-null object 出生日期 1430 non-null datetime64[ns] 年龄 1430 non-null int64 居住地 1430 non-null object 期望薪资 1407 non-null object 地点 1409 non-null object 职能/职位 1430 non-null object 行业 1149 non-null object 工作类型 1430 non-null object 学校 1430 non-null object 办学类型 1430 non-null object 专业 1420 non-null object 工作经验 1348 non-null object 工作时间 1430 non-null object 公司名称 1430 non-null object 公司规模 1430 non-null object 公司行业 1430 non-null object 性质 1430 non-null object 部门 1430 non-null object 职位 1430 non-null object 工作公司数 1430 non-null int64 工作年限 1430 non-null object 工作稳定性 1430 non-null int64 是否稳定 1430 non-null object 技能/语言 578 non-null object dtypes: datetime64[ns](1), int64(4), object(22) memory usage: 301.7+ KB
查询结果可知:总共有1430行,27个字段,其中有6个字段有缺失。