分析方法和思路参考秦璐《七周成为数据分析师》
import pandas as pd
import numpy as np
import os
# 更改文件路劲
os.chdir('D:\sun\作业')
#设置最大显示列数
pd.set_option('display.max_columns', 20)
#设置最大显示行数
pd.set_option('display.max_rows', 100)
# 读取数据
df = pd.read_csv('dataAnalyst_sql.csv', encoding='gbk')#默认将第一行作为表头
df.head(10)
df.groupby("city").count()
删除
df.drop(labels = ['positionId', 'companyId'],axis = 1,inplace=True)
查看重复数据
np.sum(df.duplicated())
计数
df.city.va