深圳房价链家数据分析

本文使用R语言分析了深圳房价与住房面积的关系,进行了数据清洗、缺失值处理、数据可视化和线性回归分析。通过分析发现,400万左右的房子数量最多,房价集中在200万至850万之间。红树湾区域房价最高,前海新区受追捧。线性回归模型解释了60.44%的方差,显示面积与房价的显著关系。
摘要由CSDN通过智能技术生成

版权声明:本文为博主原创文章,未经博主允许不得转载。

本人介绍:穗穗,高级数据分析师,5年以上数据分析经验,R/Python/SQL,广外经济

利用scrapy框架爬取某房地产中介网站的近3000条房价信息。本文旨在借助R工具(Excel,Python为辅助)来分析对房价与住房面积的关系,并对其进行线性回归分析。


-------------------文章结构:------------------

1、原始数据整理(细分变量)
2、缺失值和异常值处理
3、数据可视化+广告词词云
4、利用线性回归模型进行房价分析
5、总结
------------------------------------------------------



一、原始数据整理(细分变量)


爬出来的数据比较复杂,结合任务所需要的数据,将需要用到变量整理出来。

首先观察数据,发现以下几个问题:

?  房本满几年("Rqrmnt"列中)有部分数据缺失值,在方位栏切割数据时把这个内容往后了一单元格("Metro"列中)

?  想提取"U.P."U.P.代表每平米单价)字符串中的数值,每平米单价多少。最重要的面积数据没有单独列出来

?  提取"Focus"字符串中的数值,只保留多少人关注该房。多少次带看数据可以去掉。



1.1 数字提取,字符串合并

RExcelpython其实都有自己在数据处理上的不同方面的优势,这种数字提取和字符串的合并适合Excel进行初期处理,用到的函数公式如下:

=LEFT($F2,FIND("年",$F2))                            #截取部分文本,操作方法

=MIDB(M2,SEARCHB("?",(M2)),2*LEN(M2)-LENB(M2))      #提取含文字的字符串中的数值,操作方法

做出一定处理和变换后,将"Metro""Rqrmnt"合并,只保留"Rqrmnt"列的内容。有了单价和总价,便可得到房子面积,单独成列。处理结果如下:



然后载入R编辑器中做进一步处理。

  • 0
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Python爬取链家(Zillow)数据进行分析是一个常见的数据获取和处理任务,通常用于房地产市场的研究或个人项目。以下是使用Python进行链家数据分析的基本步骤: 1. **安装必要的库**: - `requests`:用于发送HTTP请求获取网页内容。 - `BeautifulSoup` 或 `lxml`:解析HTML文档提取所需数据。 - `pandas`:处理和分析数据,存储为数据框。 - `re`(正则表达式):用于处理和清洗URL、HTML标签等文本数据。 - `selenium`(可选):如果网站有反爬虫机制,可能需要模拟浏览器行为。 2. **获取HTML源码**: - 使用`requests.get()`获取链家网站特定页面的HTML源码。 - 处理可能出现的登录验证或动态加载数据的情况。 3. **解析HTML**: - 使用BeautifulSoup或lxml解析HTML,查找包含所需数据的元素(如房屋信息、价格等)。 4. **数据提取**: - 根据页面结构,定位并提取出所需的数据,例如房屋地址、价格、面积等。 5. **数据清洗**: - 去除无关字符,处理缺失值或格式不一致的问题。 - 将数据转换为可分析的格式(如日期格式化)。 6. **数据分析**: - 利用pandas进行数据处理,计算统计指标(如平均房价、价格分布等)。 - 可视化数据:使用matplotlib、seaborn或Plotly等库绘制图表,展示分析结果。 7. **存储数据**: - 将清洗和分析后的数据保存到CSV、Excel、数据库或数据仓库中,以便后续进一步分析或分享。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值