Python第19课:数据清洗之去错、去空、去重
时间 2019-02-01 下午3:30
主讲 刘培富
地点 四楼电教室
数据清洗是数据治理的关键环节,是指对获取的原始数据(也称“脏数据”)进行审查、校验、加工的过程,目的在于删除重复信息、纠正错误信息,保持数据一致性。
一般来说,数据清洗,主要是对数据进行去错、去空、去重处理。
一、去错
针对一张包含姓名、身份证号码、车牌号码的数据表,建立纠错规则如下:
1.车牌号既不包含汉字赣,且不包含汉字饶。
2.身份证号码的年份既不等于19也不等于20,身份证号码的月份大于12,身份证号码的日期大于31。
3.身份证号码位数不等于18。
4.姓名的长度小于等于1。import cx_Oracle
conn=cx_Oracle.connect('lpf/****@//****/****')
cur=conn.cursor()
sql="select * from diandong"
cur.execute(sql)
data=cur.fetchall()
jg="数据清洗发现的问题数据:"
m=0
for i in data:
b=i[2]
if b.find('饶')==-1 and b.find('赣')==-1 and b.find(&#