import pandas as pd
import numpy as np
1.导入数据
df = pd.read_csv("outschool.csv",encoding = 'gbk')
df.head(5)
df = df.iloc[:,:8].head(116)
df.head(5)
| 日期 | 姓名 | 职业 | 工作单位 | 来馆目的 | 联系方式 | 身份证号 | 备注 |
---|
0 | 2018年3月13日 | 宁俊 | 教师 | A | lokk | 待填写 | 待填写 | NaN |
---|
1 | 2018年3月16日 | 沈娟 | 教师 | B | view | 待填写 | 待填写 | NaN |
---|
2 | 2018年3月19日 | 于竹青 | 学生 | A | lokk | 18811012345 | 1.30205E+17 | NaN |
---|
3 | 2018年3月19日 | 赵巾豪 | 学生 | B | view | 18811011720 | 1.52628E+17 | NaN |
---|
4 | 2018年3月19日 | 王寅平 | 学生 | A | lokk | 18811011721 | 11022719830225152X | NaN |
---|
df.head()
| 日期 | 姓名 | 职业 | 工作单位 | 来馆目的 | 联系方式 | 身份证号 | 备注 |
---|
0 | 2018年3月13日 | 宁俊 | 教师 | A | lokk | 待填写 | 待填写 | NaN |
---|
1 | 2018年3月16日 | 沈娟 | 教师 | B | view | 待填写 | 待填写 | NaN |
---|
2 | 2018年3月19日 | 于竹青 | 学生 | A | lokk | 18811012345 | 1.30205E+17 | NaN |
---|
3 | 2018年3月19日 | 赵巾豪 | 学生 | B | view | 18811011720 | 1.52628E+17 | NaN |
---|
4 | 2018年3月19日 | 王寅平 | 学生 | A | lokk | 18811011721 | 11022719830225152X | NaN |
---|
df.tail()
| 日期 | 姓名 | 职业 | 工作单位 | 来馆目的 | 联系方式 | 身份证号 | 备注 |
---|
111 | 2018年7月26日 | 李子敬 | 个人 | A | view | 18811011828 | NaN | 1人 |
---|
112 | 2018年7月26日 | 吴上琳 | 个人 | B | lokk | 18811011829 | NaN | 1人 |
---|
113 | 2018年7月26日 | 刘甜甜 | 个人 | B | view | 18811011830 | NaN | 1人 |
---|
114 | 2018年7月26日 | 敬瑞 | 个人 | A | lokk | 18811011831 | NaN | 1人 |
---|
115 | 2018年7月26日 | 蒲佳 | 个人 | B | view | 18811011832 | NaN | 1人 |
---|
df.tail(3)
| 日期 | 姓名 | 职业 | 工作单位 | 来馆目的 | 联系方式 | 身份证号 | 备注 |
---|
113 | 2018年7月26日 | 刘甜甜 | 个人 | B | view | 18811011830 | NaN | 1人 |
---|
114 | 2018年7月26日 | 敬瑞 | 个人 | A | lokk | 18811011831 | NaN | 1人 |
---|
115 | 2018年7月26日 | 蒲佳 | 个人 | B | view | 18811011832 | NaN | 1人 |
---|
df.index
RangeIndex(start=0, stop=116, step=1)
df.columns
Index([‘日期’, ‘姓名’, ‘职业’, ‘工作单位’, ‘来馆目的’, ‘联系方式’, ‘身份证号’, ‘备注’], dtype=’object’)
df.shape
(116, 8)
df['日期'].dtypes
dtype(‘O’)
df['联系方式'].dtypes
dtype(‘O’)
df.fillna('空').head()
| 日期 | 姓名 | 职业 | 工作单位 | 来馆目的 | 联系方式 | 身份证号 | 备注 |
---|
0 | 2018年3月13日 | 宁俊 | 教师 | A | lokk | 待填写 | 待填写 | 空 |
---|
1 | 2018年3月16日 | 沈娟 | 教师 | B | view | 待填写 | 待填写 | 空 |
---|
2 | 2018年3月19日 | 于竹青 | 学生 | A | lokk | 18811012345 | 1.30205E+17 | 空 |
---|
3 | 2018年3月19日 | 赵巾豪 | 学生 | B | view | 18811011720 | 1.52628E+17 | 空 |
---|
4 | 2018年3月19日 | 王寅平 | 学生 | A | lokk | 18811011721 | 11022719830225152X | 空 |
---|
np.count_nonzero(df['日期'].unique())
54