sql 不同年份数据结果显示在同一行_Pandas、Matplotlib、Pyecharts数据分析实践

上篇中,我们对比了各种方式下的爬虫效率,并得到了安居客平台杭州的二手房数据3000条。今天,以此3000条数据为对象,我们尝试应用Pandas、Matplotlib和Pyecharts3个数据分析及可视化库进行练手实践。

 转自:小数志


 00   分析目标  

  1. 对数据进行去重、筛选空值行,对部分字段进行清洗处理

  2. 多维度刻画杭州在售二手房信息,包括房源售价、主打标签、建筑年份、户型、楼层、行政区划等分布情况,给出在售房源标题的词云

  3. 分析不同区划、不同建筑年份、不同标签房源的数量和均价情况

注:所有数据处理和分析都应用pandas进行,可视化部分除3张复合图表由Matplotlib制作外,其余均应用Pyecharts完成。


  01   数据处理  

1.用pandas读取MySQL数据库中的3000条信息,并完成去重

db = pymysql.connect(host="localhost",user="root",password="123456",db="ajkhzesf")
sql_select = 'select title, houseType, area, floor, buildYear, adrres, tags, broker, totalPrice, price from hzesfmultire'
df = pd.read_sql(sql_select, db)
df = df.drop_duplicates()

60830c54c0a6049102ecc98dad9be632.png

去重后,还有2996条记录

2.对总价和均价两个字段进行处理并变换为浮点型

df['totalPrice'] = df['totalPrice'].str.replace('万','').astype(float)
df['price'] = df['price'].str.replace('元/m²','').astype(float)

46ac605e8e15efbb0a3ababe188bf2fe.png

杭州二手房市场中的十大豪宅

3.通过小区/地址字段信息提取房源所在行政区划

regions = ['上城区','下城区','拱墅区','滨江区','江干区','西湖区','萧山区','余杭区','临安市','富阳区','建德市','淳安县','桐庐县']
df['region'] = ""
for region in regions:
   df.region[df['adrres'].str.contains(region[:2])] = region
df['region']

c585e4f01d8e385fedceeb14d2123b7e.png

后续做图需要,这里临安仍以”临安市”存在


  02   多维度刻画二手房市场  

1.   房源售价

3a55f9a17931213f2865a299557dadc4.png

总价200万、单价2.3万,对于杭州这样的大都市来说,也算是刚需友好了。

2.   主打标签

53f03ba80df34d1dd7f2f9a827d70ff9.png

同新房市场一样,房源的售卖标签还是主要围绕品质、配套、出行和宜居几个方面来宣传。

3.   建筑年份

e8ecc9364efe631fa73027a65f57d910.png

“满五”、“满二”政策下,2014年注定成为二手房市场存量最大的建筑年份。

4.   户型/楼层

396c97f582a711129e90c24d6161c84e.png

c98f6c5b881626274ce43de111b8f2d5.png

如果分别用一个词来概括二手房市场的户型和楼层特点,那么我选择“刚需”和“中庸”。

5.   行政区划

280cee225974d803afba7211085783e0.png

在二手房市场上,余杭的存量(2000+)以大比分完爆其他所有区划。

6.   在售房源标题词云

e21666888532b08b48114cba55a849ea.png

  • 精装、地铁、三房、户型,是最大卖点

  • 朝南、楼层、品质、车位,具有别样吸引力

  • 81/85/86/88/89/92,主打刚需市场

7.  最后给出中介经手的二手房数量信息

8d0c52b2b02cde9cdf1c090f08b61251.png

同时负责联络管理近40个房源信息,也是蛮拼的。


   03   二手房均价情况  

1.   不同区划均价

27e3c2600f5cb3129ffcc791c85ca734.png

毫无疑问,6大主城区均价要更高一筹,萧山余杭作为杭州发展潜力股也有着较高的房价水平。外围区划则相对逊色不少。

2.   不同年份均价

52c1c58ce804c2bc4dce7ff08fdfb433.png

如前所述,二手房市场数量最大的是2014年,因为刚好符合满五的低税政策; 2017年以后的房子因为意味着较高的计税,所以在售房源很少,而且因为房龄短均价高,整体市场偏小。

均价方面,总体而言年份越早的房子均价越低,但2010年——2013年例外,具体查询结果如下,2011年在售房源数量及较少,而又夹杂一些主城区的豪宅;而2013年的低均价,则很大程度上是由于在售房源偏远城区的较多,本身房价较低。所以,小样本数据的局限性造成均价曲线上的严重失衡。

ec3f8dda886da20e529c75256468e7af.png

在售的2013年低房价Top10

0522f4f3874b16400c1f2fded9753129.png

在售的2011年高房价Top10

3.    不同标签均价 统计了5个最有代表性的标签,并分别对 包含该标签不包含该标签 的样本进行了统计 (图中的每对标签数据,左侧为包含该标签的结果,右侧则为不包含该标签) ,共得到10组数据。 72b562377b9dac1521f71ca42d1cb027.png 对比来看,
  • 数量方面,包含这些优势的房源数量均为少数,无一例外的要少于相应不包含该标签的房源数量,尤其是在“繁华地段”和“南北通透”这两个属性上,差距尤为明显,印证了优质房源的稀缺性;

  • 均价方面,对比结果则略显戏剧性:在五个象征着优质房源的标签中,只有“近地铁”和“南北通透”意味着更高的均价,而其他则还看不出这样的特点,甚至跟大众印象还有很大出入。当然,再次不排除这是由小样本造成的。

感谢阅读 8b0052979d7c23c9c9d4f5aa905ec92c.png

推荐阅读:

1:真实的上海IT圈:张江男vs漕河泾男

2:真实的北京IT圈:后厂村姑 vs 后厂村花?

3:为什么你的提问没人解答?

4:Python爱好者社区历史文章合集

cf952850b34b5f044fd9ddc70638897c.png

070324fbb13c5523f592709d64f0217c.png好看请点这里~
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值