python二手房数据分析_Python 爬取北京二手房数据,分析北漂族买得起房吗? | 附完整源码...

本文通过Python爬取赶集网北京二手房数据,并利用R进行线性回归分析。内容包括Xpath、Beautiful Soup两种爬虫方法,以及对卧室数、客厅数、卫生间数、面积、朝向等因素对房价的影响分析。
摘要由CSDN通过智能技术生成

作者 徐麟

本文经授权转自公众号数据森麟(ID: shujusenlin)

房价高是北漂们一直关心的话题,本文就对北京的二手房数据进行了分析。

本文主要分为两部分:Python爬取赶集网北京二手房数据,R对爬取的二手房房价做线性回归分析,适合刚刚接触Python&R的同学们学习参考。

01

Python爬取赶集网北京二手房数据

入门爬虫一个月,所以对每一个网站都使用了Xpath、Beautiful Soup、正则三种方法分别爬取,用于练习巩固。数据来源如下:

Xpath爬取:

这里主要解决运用Xpath如何判断某些元素是否存在的问题,比如如果房屋没有装修信息,不加上判断,某些元素不存在就会导致爬取中断。

import requestsfrom lxml import etreefrom requests.exceptions import RequestExceptionimport multiprocessingimport timeheaders = {    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}def get_one_page(url):    try:        response = requests.get(url, headers=headers)        if response.status_code == 200:            return response.text        return None    except RequestException:        return Nonedef parse_one_page(content):    try:        selector = etree.HTML(content)        ALL = selector.xpath('//*[@id="f_mew_list"]/div[6]/div[1]/div[3]/div[1]/div')        for div in ALL:            yield {                'Name': div.xpath('dl/dd[1]/a/text()')[0],                'Type': div.xpath('dl/dd[2]/span[1]/text()')[0],                'Area': div.xpath('dl/dd[2]/span[3]/text()')[0],                'Towards': div.xpath('dl/dd[2]/span[5]/text()')[0],                'Floor': div.xpath('dl/dd[2]/span[7]/text()')[0].strip().replace('\n', ""),                'Decorate': div.xpath('dl/dd[2]/span[9]/text()')[0],                #地址需要特殊处理一下                'Address': div.xpath('dl/dd[3]//text()')[1]+div.xpath('dl/dd[3]//text()')[3].replace('\n','')+div.xpath('dl/dd[3]//text()')[4].strip(),                'TotalPrice': div.xpath('dl/dd[5]/div[1]/span[1]/text()')[0] + div.xpath('dl/dd[5]/div[1]/span[2]/text()')[0],     

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值