python在租房过程中的应用

最新推荐文章于 2024-05-07 21:17:19 发布

俊红的数据分析之路

最新推荐文章于 2024-05-07 21:17:19 发布

阅读量332

点赞数

本文链接：https://blog.csdn.net/junhongzhang/article/details/103686844

版权

总第84篇

01|背景介绍：

租房是再普遍不过的一件事情了，我们在租房过程中常考量的两个因素是出租房离公司的远近以及价格，而我们一般都会去链家上看相应的信息，但是链家网只有价格没有距离，对于我这种对帝都不是很熟的人，对各个区域的位置是一脸懵逼，所以我就想着能不能自己计算距离呢，后来查了查还真可以。具体做法就是先获取各个出租房所在地的经纬度和你公司所在地的经纬度，然后进行计算即可。

我们在获取经纬度之前首先需要获取各个出租房所在地的名称，这里获取的方法是用爬虫对链家网上的信息进行获取的。关于爬虫可以先看看这几篇：

02|Xpath介绍：

以前解析都是用的BeautifulSoup和正则表达式，见到网上有人说自从用了Xpath以后再也不想用BS了，所以决定这次来尝试一下。

2.1Xpath是什么

XPath 是一门在XML文档中查找信息的语言。XPath 可用来在XML文档中对元素和属性进行遍历。

Xpath是在文档中查找信息的，我们在之前用过的BeautifulSoup也是可以用来在文档中查找信息的。这两者有什么不一样呢，我们来看看。

我们看看这两种方式具体查找信息的过程。

BeautifulSoup在查找信息时，需要利用BeautifulSoup(html,”lxml”)对requests.get()得到的内容进行解析得到一个BeautifulSoup对象soup，然后再利用BeautifulSoup的一些方法去获取对应的信息。

Xpath在查找信息的时候，也是需要先对requests.get()得到的内容进行解析，这里是用lxml库中的etree.HTML(html)进行解析得到一个对象dom_tree,然后利用dom_tree.Xpath()方法进行获取对应的信息。

(疑问:既然Xpath的目标对象是XML，而BeautifulSoup也有XML的解析器，是不是可以用BeautifulSoup的xml进行解析得到xml文档，然后再用Xpath？我试了下好像不可以，同样的response，用xml进行解析数据为空，也不知道是什么原因，是不是这种思路就有问题，求指正。)

关于BeautifulSoup的几种解析器可以看：http://www.cnblogs.com/KoalaDream/p/4706316.html

这里面有提到两种文件类型XML和HTML，那么这两者又有什么区别。
http://blog.csdn.net/liu_yujie2011com/article/details/20284453

03|Xpath怎么用：

Xpath最常用的几个符号就是“/”、“//”这两个符号，“/”表示该标签的直接子节点，就比如说一个人的众多子女，而“//”表示该标签的后代，就比如说是一个人的众多后代(包括儿女、外甥、孙子之类的辈分)。

更多详细内容这里就不Ctrl C/V了，大家直接看官方教程就好啦：http://www.w3school.com.cn/xpath/xpath_syntax.asp 。

04|数据抓取：

在前面也说过，我们本次抓取的流程是先获得url,然后利用requests.get()获得html，然后再利用lxml库中的etree.HTML(html)进行解析得到一个对象dom_tree,然后利用dom_tree.Xpath()方法进行获取对应的信息。

先分析目标网页url的构造，链家网的url构造还是很简单的，页码就是pg后面的数字，在租房这个栏目下一共有100页，所以我们循环100次就好啦。

还有就是明确我们要获取的信息，在前面我们说了是要研究公司附近的租房，但是我们在租房的时候也不是仅仅考虑距离这一个因素，这里我准备获取标题、价格、区域(大概在哪一块)、看房人数（说明该房的受欢迎程度）、第一特征（可以说是该房的一个优势点，有的会写离地铁近，有的会写随时看房之类的），更新日期（判断你看到的信息是不是该房源的最新动态），楼层情况（高楼层还是低楼层），房租建筑时间等等。（就是你能看到的信息差不多都要弄下来哈哈）。

#导入相关库
from lxml import etree
import requests
from requests.exceptions import ConnectionError
import pandas as pd

#获取目标网页的url
def get_page_index():
    base="https://bj.lianjia.com/zufang/pg"
    for i in range(1,101,1):
        url=base+str(i)+"/"
        yield url#yield为列表生成器

得到目标网页的url后，对其进行解析，采用的方法是先用lxml库的etree对response部分进行解析，然后利用xpath进行信息获取。

#请求目标网页，得到response
def get_page_detail(url):
    try:
        response=requests.get(url)
        if response.status_code==200:
            return etree.HTML(response.content.decode("utf-8"))
            #lxml.etree.HTML处理网页源代码会默认修改编码
        return None
    except ConnectionError:
        print ("Error occured")
        return None

#解析目标网页
#title为房屋标题；name为小区名称；catogery为房屋类别(几室几厅)
#size为房屋大小；region为区域；PV为看房人数；
#second_feature为高低楼层；third_feature为房屋建筑时间
def parse_page_detail(dom_tree):
    try:
        title=dom_tree.xpath('//li/div[2]/h2/a/text()')
        name=dom_tree.xpath('//li/div[2]//div/a/span/text()')
        catogery=dom_tree.xpath('//li/div[2]//div//span[1]//span/text()')
        size=dom_tree.xpath('//li/div[2]//div//span[2]/text()')
        region=dom_tree.xpath('//li/div[2]//div[1]//div[2]//div/a/text()')
        PV=dom_tree.xpath("//li/div[2]//div[3]//span[@class='num']/text()")
        price=dom_tree.xpath("//li/div[2]//div[2]//span[@class='num']/text()")
        date=dom_tree.xpath("//li/div[2]//div[2]//div[@class='price-pre']/text()")
        first_feature=dom_tree.xpath('//li/div[2]//div[1]//div[3]//span[@class="fang-subway-ex"]/span/text()')
        other=dom_tree.xpath('//li/div[2]//div[1]//div[2]//div/text()')
        name1=[]
        catogery1=[]
        size1=[]
        second_feature=[]
        third_feature=[]
        for n in name:
            name2=n[0:-2]
            name1.append(name2)
        for c in catogery:
            catogery2=c[0:-2]
            catogery1.append(catogery2)
        for s in range(0,59,2):
            size2=size[s][0:-2]
            size1.append(size2)
            second_feature1=other[s]
            second_feature.append(second_feature1)
        for m in range(1,60,2):
            third_feature1=other[m]
            third_feature.append(third_feature1)
        return {
            "title":title,
            "name":name1,
            "catogery":catogery1,
            "size":size1,
            "region":region,
            "price":price,
            "PV":PV,
            "second_feature":second_feature,
            "third_feature":third_feature,
            "other":other      
        }
    except:
        pass

#对获得目标内容进行整理导出
#建立一个空的DataFrame
df1=pd.DataFrame(columns=["title","name","catogery", "size","region","price","PV",
        "second_feature","third_feature","other" ])
i=0
if __name__=="__main__":
    urls=get_page_index()
for url in urls:
    dom_tree=get_page_detail(url)
    result=parse_page_detail(dom_tree)
    df2=pd.DataFrame(result)
    df1=df1.append(df2,ignore_index=False,verify_integrity=False)
    i=i+1
    print(i) #打印出目前爬取的页数  
#保存数据到本地
df1.to_csv("D:\\Data-Science\\Exercisedata\\lianjia\\result.csv")
print(df1.info)#打印出表的基本信息
df1.head(3)#预览前3行

df1.info(通过下图可以看出，我们一共抓取到2970条房屋信息)。

df1.head(3)，预览一下表的基本构成。

05|经纬度的获取：

我们刚刚只是获取了一些出租房的基本信息，但是我们要想计算距离还需要获得这些出租房所在的地理位置，即经纬度信息。

这里的经纬度是获取的区域层级的，即大概属于哪一个片区，本次爬取的2970条房屋信息分布在北京的208个区域/区域。

关于如何获取对应地点的经纬度信息，这里感谢雨哥提供方法，利用的XGeocoding_v2工具，具体的获取方法点击:

https://mp.weixin.qq.com/s/2Y92oxDUnR5VaT2E2Adowg

得到的如下的结果：

06|距离的计算：

#经纬度的计算函数
# input Lat_A 纬度A
# input Lng_A 经度A
# input Lat_B 纬度B
# input Lng_B 经度B
# output distance 距离(km)
def calcDistance(Lat_A, Lng_A, Lat_B, Lng_B):
    ra = 6378.140  # 赤道半径 (km)
    rb = 6356.755  # 极半径 (km)
    flatten = (ra - rb) / ra  # 地球扁率
    rad_lat_A = radians(Lat_A)
    rad_lng_A = radians(Lng_A)
    rad_lat_B = radians(Lat_B)
    rad_lng_B = radians(Lng_B)
    pA = atan(rb / ra * tan(rad_lat_A))
    pB = atan(rb / ra * tan(rad_lat_B))
    xx = acos(sin(pA) * sin(pB) + cos(pA) * cos(pB) * cos(rad_lng_A - rad_lng_B))
    c1 = (sin(xx) - xx) * (sin(pA) + sin(pB)) ** 2 / cos(xx / 2) ** 2
    c2 = (sin(xx) + xx) * (sin(pA) - sin(pB)) ** 2 / sin(xx / 2) ** 2
    dr = flatten / 8 * (c1 - c2)
    distance = ra * (xx + dr)
    return distance

#具体的计算
#Lat_A,Lng_A为你公司地址，这里以望京为例，
#你可以输入你公司所在地
Lat_A=40.0011422082; Lng_A=116.4871328088
Distance0=[]#用于存放各个区域到公司的距离
region=[]
for r in range(0,208,1):
    Lat_B=df3.loc[r][1];Lng_B=df3.loc[r][2]
    distance=calcDistance(Lat_A, Lng_A, Lat_B, Lng_B)
    Distance1='{0:10.3f} km'.format(distance)
    region0=df3.loc[r][0]
    Distance0.append(Distance1);region.append(region0)
date={"region":region,"Distance":Distance0}    
Distance_result=pd.DataFrame(date,columns=["region","Distance"])
#将得到的距离望京最近的十个区域进行输出
Distance_result.sort_values(by="Distance").head(10)