链家网二手房信息爬取（一）

最新推荐文章于 2024-04-12 14:15:06 发布

dta0502

最新推荐文章于 2024-04-12 14:15:06 发布

阅读量2.3k

点赞数

分类专栏：爬虫文章标签： Python 爬虫链家网

本文链接：https://blog.csdn.net/dta0502/article/details/82226970

版权

本文介绍了如何使用Python爬虫从链家网抓取杭州二手房数据。针对链家网只显示前100页的限制，作者通过按面积分类抓取，确保每类房源不超过3000条。详细讲解了页面分析、代码实现，包括页面解析、请求、主函数以及多个CSV文件的合并。最终成功获取近20000条数据，为后续数据分析做好准备。

摘要由CSDN通过智能技术生成

我首先选择杭州的二手房作为爬取的对象。

页面分析

问题

链家只显示前100页数据，100以后的数据根本就不显示，这样一次性最多只能抓取3000条数据。

解决办法

我通过分类抓取，只要保证每一类中的房源小于3000即可。这里我以面积作为选择的参数：

50平以下:2378
50-70平:3532
70-90平:5787
90-120平:2640
120-140平:2602
140-160平:984
160-200平:920
200平以上:848

其中50-70平、70-90平这两个分类房源超过3000，我按照居室数目再次细分抓取。

代码实现

import requests
from fake_useragent import UserAgent
from lxml import etree
import pandas as pd
import numpy as np
import time
import json
from collections import OrderedDict #用来生成有序的字典
import re
import os
import glob

页面解析函数

输入：页面数据(response.text)
输出：Pandas DataFrame数据、该分类的总页数

字符串中取出一个字典

我们可以通过json来转换：

>>> import json
>>> user_info= '{"name" : "john", "gender" : "male", "age": 28}'
>>> user_dict = json.loads(user_info)
>>> user_dict
{
  u'gender': u'male', u'age': 28, u'name': u'john'}

但是使用 json 进行转换存在一个潜在的问题。
注意：json语法规定数组或对象之中的字符串必须使用双引号，不能使用单引号

def parse(text):
    selector = etree.HTML(text)
    ###下面是总页数解析过程
    totalPageStr = selector.xpath('//div[@class="page-box fr"]/div[1]/@page-data')[0] #这是一个字符串，里面包含了一个字典

最低0.47元/天解锁文章

dta0502

关注

0
点赞
踩
12

收藏

觉得还不错? 一键收藏
1
评论
链家网二手房信息爬取（一）

我首先选择杭州的二手房作为爬取的对象。页面分析问题链家只显示前100页数据，100以后的数据根本就不显示，这样一次性最多只能抓取3000条数据。解决办法我通过分类抓取，只要保证每一类中的房源小于3000即可。这里我以面积作为选择的参数：50平以下:237850-70平:353270-90平:578790-120平:2640120-140平:2602140...
复制链接

扫一扫

专栏目录