篇头总结:数据分析师最重要的还是能站在一系列分析方法之外看问题,能熟练的应用各种库的内置函数固然很重要,但最重要的还是要精准把握业务中用到的指标。一句话:吃透业务逻辑比吃透分析方法更为重要。
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
#明确分析目的:了解北京房价总体情况,为自己买房做指导
#加载数据文件
#df = pd.read_csv('./beijing_houst_price.csv')
#我们会看到让我们明确数据类型的警告:所以我们会指明
df = pd.read_csv('./beijing_houst_price.csv',dtype = {'id':'str','tradeTime':'str'
,'livingRoom':'str','drawingRoom':'str'
,'bathRoom':'str'})
#简单地浏览一下数据
df.head()
#查看一下数值类型的常用统计量,为数据清洗做好一定的准备
df.describe()
#查看各列的非空值数量,这里还能看到哪些列有空值,很有用
df.count()
#接下来开始数据清洗
#1.重复值检查
df[df.duplicated()]#可以看到没有重复值
#2.单独检查ID这一列有没有重复值
d