爬虫爬取链家房源数据并保存本地excel或txt

本文介绍如何使用正则表达式和HTTPS技术抓取链家网站上的房源信息,详细解析HTML内容,最终将数据保存为Excel或TXT文件,实现房源数据的自动化收集与分析。
摘要由CSDN通过智能技术生成
import requests,re
from openpyxl.workbook import Workbook
from openpyxl.writer.excel import ExcelWriter


def get_page(url):
    headers = {
   
    "User-Agent":"Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_5; de-de) AppleWebKit/534.15+ (KHTML, like Gecko) Version/5.0.3 Safari/533.19.4"
    }
    response = requests.get(url,headers=headers)
    return response.text


def parse_page(html):
    pattern = re.compile(
        "price\"><span>(.*?)</span>(.*?)</div>.*?data-housecode=\"(.*?)\".*?data-el=.*?>(.*?)</a><div class=.*?>(.*?)<span>/</span>(.*?)<span>/</span>(.*?)<span>/</span>(.*?)<span>/</span>(.*?)</div>.*?<span class=.*?>(.*?)<.*?<span class=.*?>(.*?)<.*?<span class=.*?>(.*?)<.*?",
        re.S
        )
    items = re.findall(pattern,html)
    return items


def parse_all():
    property_data = []
    for i in range(1,101):
        url = "https://sh.lianjia.com/ershoufang/pg{0}/?utm_source=baidu&utm_medium=pinzhuan&utm_term=biaoti&utm_content=biaotimiaoshu&utm_campaign=sousuo&ljref=pc_sem_baidu_ppzq_x".format(i)
        html = get_page(url)
        item_list = parse_page(html)
        property_data.extend(item_list)
    return property_data


def save_property_list
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值