岭回归ridge regression分析住房价格

住房趋势

首先,这里是伯克利价格的一般直方图。这是基于从伯克利的租金收集委员会收集的数据,从中我可以获取伯克利目前被占用的9143套公寓的租赁信息,并从2014年开始租赁。这是每间客房的价格,平均为公寓楼数量由于租金管制,我认为每个房间的每栋房租都非常相似)。

正如我们可以清楚地看到的那样,这是一个标准的正态分布形状,平均约为1400,标准偏差约为200美元。

但是,我们希望探索价格随时间的关系,这对于理解这个故事并不是那么有帮助。相反,让我们看看每个月的直方图映射到当月启动的租约数量:

啊,现在这更有趣了。每年5月份左右的租期明显高涨,与伯克利的学校日历 - 五月份的学校结束时相同,人们正在为下一个学期确定他们的生活安排。这一数量下降到1月份,当时它以相同的模式再次开始上涨。另外,您会注意到2015年的租赁总数明显多于2014年,尽管购买模式相同。

然后,结合上述两幅图的信息,我们预计过去两年价格普遍上涨,5 - 8月价格上涨。让我们确认一下:

这正是我们所看到的!5月份开始的租赁价格明显高于11月份到1月份。而且,租金价格在每年的7月/ 8月达到高峰,这是合理的:购买这些房子的学生迫切希望租住公寓,并愿意为有限的剩余供应支付额外费用。如果您在多年的同一月份进行比较,我们也可以看到2014年至2016年价格普遍上涨的趋势。

现在,这给我们提供了整个伯克利市房价上涨的总体思路,我们的大部分数据来自主要是学生住房。

寻找内在价格

现在我们对伯克利的租金定价有了更好的理解,让我们改变方向,并提出一个更基本的问题:公寓的内在价值是什么?

经济学家说,关于公寓的所有可用信息都包含在当前价格中,因此它没有内在价值:它的价值是人们愿意支付的价格(这实际上也是技术股票分析的核心假设)。但是,这个定义现在对我们来说并不是特别有用,所以我提出了另外一个定义。

具有一些任意特征向量的公寓的内在价值是具有完全相同的特征向量的另一个公寓将出售的所有其他公寓的平均值(其中特征代表我们可以测量的一定数量的公寓),在这里,功能可以是平方英尺,或浴室的数量等)

但是,这与预测价格的问题完全一样!如果我们有一套训练集和一套机器学习模型在这套训练集上进行训练,那么模型预测给定公寓的价格就是该公寓的内在价值(如果我们只关心其特征,那么该公寓将花费什么)。然后,我们可以比较该公寓的实际价格,并确定相对于其内在价格是高估还是低估。

这就是我所做的。在过去的几天里,我挖掘了大约1500个Craigslist列表,解析它们,并使用Ridge回归模型预测任何新列表的价格。

为什么岭回归?

为什么岭回归?那么,显而易见的原因是它表现最好。在10倍交叉验证测试中,Ridge回归的准确率约为42%,标准偏差为22%。我也只有7000个列表,一个非常小的训练集,更复杂的模型会适合这样一个小的集合(他们做到了:我尝试了一个3层神经网络和一个随机森林,两者的表现都差得多)。

但除此之外,我想保持解释性。我使用这个模型作为内在价格的度量,而不是价格预测,所以我想要很容易地理解每个特征对最终价格的影响程度,并确保内在价格思想不会被复杂的模型。例如,一个神经网络使得讨论内在价值变得更加困难,因为它掩盖了信息如何组合来创造预测。用于比较的回归模型是相当透明的:它使用线性代数为每个要素分配权重,并且使用向量内积生成每个预测。

特征

我对模型的特征是平方英尺,卧室数量,浴室数量,离校园的距离(即距离包围伯克利校园的边界框的最近边的距离),列表中的图像的数量,描述中唯一字词的数量以及发布商品后的天数。

在确定价格时最重要的是什么?

以下是我们模型中每个特征的权重:

('bedrooms', -0.01484452500338929),

('bathrooms', 441.35475406327225),

('square feet', 0.81243297704451789),

('distance_to_campus', -82.126291331406136),

('num_images', 37.305112110230304),

('unique_words', 0.51051340095473563),

('postingDate', 8.1268498554076096)

这意味着每个额外的卫生间,例如,增加441美元的发布价格。每平方英尺增加约80美分的价格,而从校园每增加一英里的价格减少了82美元。这大部分与我们之前在地图上看到的一致。南部地区比远南地区贵了大约100美元,平均而言,它距离校园约1.5英里。

所以,让我们说我们想找到一些任意公寓的内在价值,就像这样:

然后,如果我们计算每个特征,将其乘以相应的权重,并将它们加在一起,我们得到2507.84967859作为我们的预测,这非常接近(在屏幕截图中有很多文本不可见)。然后,根据模型对其质量的看法,这个列表被低估了,所以我们应该考虑租用它。

如何找到被低估的公寓

现在我们已经阐明了内在价格的概念,创建了一个计算固有价格的模型,并且理解了该模型的行为方式和原因,最后我们可以解释这篇文章的实际动机:我们如何才能找到低估的公寓Craigslist的?更简单地说,我们如何找到合适的交易?

那么,根据我们的分析,我们知道上市的年龄是其价格的主要组成部分。正如我们所期望的,更便宜的上市似乎更快。所以,请先!不断检查Craigslist,或者更好地写一个脚本来抓取Craigslist,并返回给你有趣的列表,并确保你早于每个列表。

而且,寻找更少的图像冗长的列表。是的,其中很多会很糟糕,但不是全部。根据我的经验,有一小部分房源是由不知道如何出售公寓的人列出的高质量公寓(下一个项目 - 找到它们?)。描述会很短并且充满拼写错误; 图像会变得光线不足并且不具吸引力。但是,价格会更低,而且公寓本身会非常合理。

时机也是关键。我们在伯克利看到,11月份的公寓比5月或8月便宜得多。如果您可以使用这些模式来搜索您的公寓,您可以获得更好的交易。伯克利租赁市场对季节变化特别敏感,因为它主要服务于学生,他们对租约日期有非常特殊的限制,所以等待实际上可以帮助很多。

因此,根据我们所知道的信息,寻找最佳交易的最佳策略是在十一月开始搜索,不断检查Craigslist,并且看看格式良好,记录良好的列表。换句话说,我的建议归结为从不知道如何推销的人那里购买,谁不明白是什么创造了销售线索并推动购买,这对于整个资本主义历史来说一直是个好主意。

 还有问题,联系我们!

转载于:https://www.cnblogs.com/tecdat/p/11065023.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值