python租房_爬虫深圳租房网站&&租房分析(python)

本文利用Python爬虫收集深圳租房信息,分析数据,包括区域分布、价格与面积关系等。数据清洗过程中处理反爬策略,通过可视化工具揭示福田、南山等地租金水平,发现面积与租金呈正相关,同时指出交通因素对租金的影响。文章总结了爬虫、数据处理和初步分析的过程,提出未来改进方向。
摘要由CSDN通过智能技术生成

目标:深圳租房信息

数据获取

需要爬取的信息 ---->

分析该网站的html结构,获取这些字段

使用requests,BeautifulSoup,,,各种包爬取数据

得到的csv如下:

数据清理

合并由于反爬虫而多次爬的csv数据

去重(drop)&&数据列的拆分(正则)&&整理列的顺序

处理完以后的表格结构,把位置,房间大小,出租的形式以每一列的形式展现:

数据分析

初步观察数据的特征值的缺失情况 ,表示没有缺失值,初步验证发布58租房信息时这些消息都是必填选项。(sz_rent.describe())

统计特征值是数值的的统计值(sz_rent.describe()),包括平均数,中位数,标准差,最小值,最大值,四分位数,75%分位数。这些结果简单直接,初步了解一个特征值非常有用,比如我们观察到size的最大值140平方米,最小是9平方米。

接下来用可视化来清晰的展示各个数据的关系。

新建一个房子的每平方米的出租价格perPrice插入表格,如下

可视化分析

region特征分析

使用了pandas的网络透视功能groupby分组排序。区域特征可视化直接采用seaborn完成,颜色使用调色板palette参数,颜色渐变,越浅说明越少,反之越多。

如上可以得出观察到:

每平米租金:福田>南山>罗湖>宝安>龙华>龙岗>盐田>光明>坪山基本符合我们广大租房群众的租房常识。

出租房的数量:龙华>宝安>罗湖~福田~南山 >坪山。关外房子数量多啊,关外啥都好,房价便宜,吃的便宜,但是就是交通不便。总总优势,所以还是选择关外的租房的人会多一些把。

通过箱型图看到,各大区域房屋总价每平米中位数都都在200以下,且房屋总价离散值较高,最高的点是在大冲,第二高点在福田,科技园和金融的大佬居住的地方,离公司近,无所谓房租。

size特征值分析

Size 与 Price 的关系:

通过 regplot 绘制了 Size 和 Price 之间的散点图,发现 Size 特征基本与Price呈现线性关系,符合基本常识,面积越大,价格越高。但是有两组明显的异常点:1. 面积120左右的租金价格在12000。2. 一个点面积140平米左右,价格偏低,需要查看是什么情况。

猜测应该是位置的原因把。

1.

2.

南山地铁口的房子,靠近腾讯大厦,三条地铁线,科技园的中心,所以租金。

公明,还没开发的光明新区,没有通地铁,所以租金那么低。

选择租房地址,不仅仅要考虑租金,交通也是很重要的。

====符合大家租房常识。

layout 分析

单间出租比较多,一室一厅,一室0厅都是单间出租。反向推理,大部分人也还是比较愿意一个人住。

出租房间类型与价格分析

整租的数量多一些,然后单间的每平米价格会更高,观察数据得知单间的大都时候是整套里面所谓的一间出租,自然面积会小很多,导致单间每平米的租金会高一些。然后添加月租金和出租类型的关系得证。

遇到的坑:

1.问:安装pip3及各种package

答:折腾了很久,然后发现是网络的问题。

--添加代理 pip3 install -i pypi.doubanio.com/simple/ IPytho

2.问:58的反爬虫-登陆机制

答:没有gg到对应方法,采取了多次分批爬虫;

3.问:58的反爬虫-数字采用加密的方法

答:找到对应的密文转化成二进制保存到woff字体中并转为xml文件

观察字体文件,一一变为正常字体

4.问:数据可视化中文字体显示为方块

答:下载SimHei.ttf拷贝并安装到本地,修改配置项,重启python'

总结

这是一篇很鸡肋的分析文章,都是在我们可以推理得到的基础上,当然这篇主要是为了学习用python进行爬虫,数据清理,然后学会用各种工具对数据进行分析。

学习的过程中当然也存在一些问题:

爬虫的数据不够多,--好好学习一些反爬虫的技巧

分析的比较浅显 慢慢积累多挖掘

需要做更多的特征工程工作,数据清洗,特征选择和筛选

使用统计模型建立回归模型进行价格预测最后:github地址:

github.com/heavy-snowy…

### 安居客出租房(武汉为例)爬虫+数据分析+可视化 这个爬虫是我前段时间在淘宝上做单子的时候遇见的一个客户需求。本来以为就是一个简单的爬虫项目。但后面客户加了数据清洗和数据分析的要求。而后又加了要详细代码解释的需求等等。直到最后客户坦白说这是他们大专的毕设.......但是这个单子坐下来只有200左右,我想了一下,感觉好亏啊。在淘宝上随便找一个做毕设的都要好多钱的,而且客户本身的代码能力、数学、逻辑能力都很差,导致我每行都给注释以及看不懂,在我交付代码后又纠缠了我一个多礼拜。反正总体做下来的感觉就是烦躁。头一次感觉到了客户需求变更带来的巨大麻烦。 总之这是一次不是很愉快的爬虫经历。但是作为我写爬虫以来注释最详细的一次,以及第一次真正使用像matplotlib这种数据分析库的代码,我认为还是有必要分享出来给大家当个参考的(PS:大佬轻拍~)。爬虫本身几乎没有什么难度,写的也比较乱,敬请见谅。 **功能** 爬取安居客上的出租房信息(武汉地区的),并通过爬取的数据进行数据清洗以及数据分析。给出四个不同层面的可视化图。最终结果如下图所示: ![Image text](https://raw.githubusercontent.com/srx-2000/git_spider/master/anjuke_room_rent_info/result/1.png) ![Image text](https://raw.githubusercontent.com/srx-2000/git_spider/master/anjuke_room_rent_info/result/2.png) ![Image text](https://raw.githubusercontent.com/srx-2000/git_spider/master/anjuke_room_rent_info/result/3.png) ![Image text](https://raw.githubusercontent.com/srx-2000/git_spider/master/anjuke_room_rent_info/result/4.png) **环境** 1. Windows 10 2. python3.7 **使用方法** 首先声明该爬虫由于是特定情况下写的,所以本身的通用性特别差,仅可以对安居客网站上的武汉的出租房信息进行爬取,且需要自己手动更新cookie。同时在对数据进行分析及可视化的时候由于也是特别针对武汉出租房的进行的,所以针对性也比较强。如果别的需求需要自己进行更改。 1. 访问[安居客网址](https://wuhan.anjuke.com/),获取cookie。 > tip:获取cookie的方法可根据[此链接](https://jingyan.baidu.com/article/5d368d1ea6c6e33f60c057ef.html) 2. 在项目中找到`spider.py`的文件,将第12行的cookie换成你自己的cookie。 3. 运行`spider.py`,获取房源信息。运行后应会产生一个`武汉出租房源情况.csv`的文件。此文件为我们从安居客上爬取的房源信息,其中包含`房屋租住链接、房屋描述、房屋地址、房屋详情(户型)以及经纪人、房屋价格`五个属性。 4. 在获取了数据之后我们运行`matplotlib.py`文件。进行数据清洗,分析,可视化。运行后即可获得**功能**中展示四个图片。 **技术栈** 1. request 2. parsel 3. pandas 4. matplotlib **进步(相比之前)** 此次爬虫相比之前的技术上可以说有减无增。但其中注释相当详细,可谓是每行代码都有注释。所以对于初学者应该有一些用处。同时使用matplotlib进行了数据分析可视化等。对于数据处理的代码的注释也是几乎每行都有注释的。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值