利用PYHTON爬虫爬取恋家网房价

该博客演示了如何使用Python爬虫从恋家网抓取房价信息,包括小区名称、位置、简介和价格等,并将数据保存到Excel文件和数据库中。主要涉及requests、lxml、openpyxl和pymysql等库的使用。
摘要由CSDN通过智能技术生成

import openpyxl         # 导入处理excel文件用到的库
import requests         # 导入requests 请求库
from lxml import etree  # 导入lxml解析库
import pymysql


def main(baseurl):
    """
    1.爬取网页
    2.逐一解析
    3.保存数据
    :return:
    """
    print("START爬取楼盘")
    # baseurl = "https://cd.fang.lianjia.com/loupan/"
    num = int(input("需爬页数:"))
    datalist = getdata(baseurl, num)    #用下面的getdata函数爬取网页返回数据给datalist
    #   保存数据
    savepath = "a.xlsx"     #设置数据上传到aEXCEL
    savedata(datalist, savepath)    #调用下面写的保存数据到excel的函数
    savedatadb(datalist)
    print("OK!")    #函数成功调用保存之后输出ok

def getdata(baseurl, num):
    datalist = []
    x = [str(i) for i in range(1, num+1)]  # 字符串类的数字序列,用于拼接网址
    global name    # 用于拼接网址
    name = str(input("请输入查找的相关内容:"))  # 用于拼接网址
    for i in range(0, num):
        # https://cd.fang.lianjia.com/loupan/pg2rs1
        # 爬取网页
        url = baseurl + "pg" + x[i] + "rs" + name
        print(url)
        resp = requests.get(url)    #使用get()方法抓取网页信息
        # print(resp.text)

        #用etree.HTML来解析这个网页的结构,最后通过xpath获取自己所需的内容
        html = etree.HTML(resp.text)

        # 获取网页信息
        divs = html.xpath("/html/body/div[3]/ul[2]/li")

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值