python爬取分析深圳二手房房价

最新推荐文章于 2024-07-31 23:03:34 发布

neverstop_yi

最新推荐文章于 2024-07-31 23:03:34 发布

阅读量2.7k

点赞数 3

分类专栏： python 文章标签： Python 爬虫

本文链接：https://blog.csdn.net/qq_29084189/article/details/82530975

版权

本文介绍了一位初学者使用Python爬虫抓取链家网深圳二手房信息，包括楼盘名称、区域、总价和均价，并通过调用百度地图API获取区县信息。数据存储为CSV文件，进行了房价排序和各区均价计算，最后利用pyecharts实现房价地图可视化，展示深圳各区房价分布。

摘要由CSDN通过智能技术生成

刚入门学习Python爬虫，因为后边将会去深圳发展，所以练习了一个用python爬取深圳房价进行可视分析的项目，希望有所帮助。

好！进入正题！
我选择爬取的是链家网的深圳二手房网页，截图如下：
这里写图片描述
查看链家网网址的变化规律，分别翻看第一页到第三页，可以看到url分别是：

https://sz.lianjia.com/ershoufang/pg1/
https://sz.lianjia.com/ershoufang/pg2/
https://sz.lianjia.com/ershoufang/pg3/

规律很明显，页面分别对应着结尾的pg1/pg2/pg3，这样我们就可以对100个页面进行很方便的爬取。
然后是对页面信息的爬取，这里我爬取楼盘的名字、所在的区段、总价和均价，比如联城美园、春风路、358万、56700元/平米。选择用BeautifulSoup来进行这几个信息的获取，具体的用法较为简单，可以搜索一下可以很快上手。获取信息后，存入csv文件中，具体代码如下：

import requests
import csv
from bs4 import BeautifulSoup
import lxml
import datetime
import json
import time

def request_page(url):
    date = datetime.datetime.now().strftime('%Y-%m-%d')
    html = requests.get(url)
    soup = BeautifulSoup(html.content,"lxml")
    try:
        for k in soup.find('ul',class_="sellListContent").find_all('li',class_="clear LOGCLICKDATA"):
            #分别查找小区，街道，区域，总价，均价
            community = k.find('div',class_="houseInfo").find('a',target="_blank").getText().strip()
            district = k.find('div',class_="flood").find('a',target="_blank").getText()
            total_price = k.find('div',class_="totalPrice"