这是一篇非常简单易懂的分析方法,你只需要了解Python的3个包(numpy,pandas,matplotlib)和Python基本的语法结构就可以看懂了。
当然,跟着这篇文章亲手试一次更能加深你的理解~有任何不懂的问题都可以私信我哈~欢迎私撩
一、明确分析目的和思路
1、分析北京二手房成交价格分布情况
2、分析成交量超过一亿的经纪人相关因素
二、数据准备
1、数据概况
(1)爬虫爬取的链家经纪人的成交数据
(2)共约16万2千条成交记录
(3)涵盖非常全面的成交信息
数据共有14列,其中包括成交套数、成交门店、成交总价、成交经纪人职位、成交经纪人好评及评论数、成交单价、成交小区(小区名称、户型、面积)、经纪人姓名、成交周期、经纪人标签、楼层信息(朝向、楼层)、成交时间、经纪人从业年薪啊、板块。
2、数据来源
(1)数据来源:
(2)数据导入:
首先导入我们要使用的模块
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
然后导入数据,数据有7个csv文件,全放在名为fangchan的文件夹里了
#format()函数用于字符串的格式化,用{}表示参数
#python一般编码格式是utf8,由于我们数据中含有数字,以防万一可以设置encoding = 'gbk'
data_list = []
for i in range(1,8):