爬取链家租房数据

该博客讲述了如何利用requests和lxml库爬取链家网站上的租房信息,包括房源名称、大小、地点和价格等关键字段。博主通过循环处理翻页,将抓取的数据存储到本地数据库中,要求读者配置好相应的数据库连接信息。
摘要由CSDN通过智能技术生成

 使用requests+lxml结合爬取的链家租房信息数据,翻页我直接使用循环去访问的,链接翻页的改变就是相对应的'pg1'。

主要使用xpath匹配了房源名称、房源大小、地点、价格等字段信息,获取各个字段之后连接了我的本地数据库,然后一条一条从插入数据库。

数据库的连接得填好自己想要存进去的数据库账号。

就这些了,有不懂的欢迎评论,下面附上代码:

import requests
from lxml import etree
import pymysql
import time

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.84 Safari/537.36',
}

def parse_lianjia_data(url):

    data = requests.get(url,headers=headers)
    response = etree.HTML(data.content)

    length = response.xpath("//ul[@id='house-lst']/li")
    print(len(length))
    for i in range(len(length)):
        print("=========================")
        print(url)
        item = {}

        try:
            house_name = response.xpath("//li[@data-index='"+str(i)+"']//h2//text()")
            print(house_name)
            item['house_name'] = ''.join(house_name).strip()

            house_size = response.xpath("//li
  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值