数据分析之北京房价复习

 篇头总结:数据分析师最重要的还是能站在一系列分析方法之外看问题,能熟练的应用各种库的内置函数固然很重要,但最重要的还是要精准把握业务中用到的指标。一句话:吃透业务逻辑比吃透分析方法更为重要。

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
#明确分析目的:了解北京房价总体情况,为自己买房做指导
#加载数据文件
#df = pd.read_csv('./beijing_houst_price.csv')
#我们会看到让我们明确数据类型的警告:所以我们会指明
df = pd.read_csv('./beijing_houst_price.csv',dtype = {'id':'str','tradeTime':'str'
                                                      ,'livingRoom':'str','drawingRoom':'str'
                                                      ,'bathRoom':'str'})
                                                    
                                                     
#简单地浏览一下数据
df.head()
#查看一下数值类型的常用统计量,为数据清洗做好一定的准备
df.describe()
#查看各列的非空值数量,这里还能看到哪些列有空值,很有用
df.count()
#接下来开始数据清洗
#1.重复值检查
df[df.duplicated()]#可以看到没有重复值
#2.单独检查ID这一列有没有重复值
d
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值