利用PYHTON爬虫爬取恋家网房价

最新推荐文章于 2024-11-08 13:43:44 发布

m0_62399506

最新推荐文章于 2024-11-08 13:43:44 发布

阅读量612

点赞数 1

文章标签： python

本文链接：https://blog.csdn.net/m0_62399506/article/details/122048096

版权

该博客演示了如何使用Python爬虫从恋家网抓取房价信息，包括小区名称、位置、简介和价格等，并将数据保存到Excel文件和数据库中。主要涉及requests、lxml、openpyxl和pymysql等库的使用。

摘要由CSDN通过智能技术生成

import openpyxl # 导入处理excel文件用到的库
import requests # 导入requests 请求库
from lxml import etree # 导入lxml解析库
import pymysql

def main(baseurl):
"""
1.爬取网页
2.逐一解析
3.保存数据
:return:
"""
print("START爬取楼盘")
# baseurl = "https://cd.fang.lianjia.com/loupan/"
num = int(input("需爬页数："))
datalist = getdata(baseurl, num) #用下面的getdata函数爬取网页返回数据给datalist
# 保存数据
savepath = "a.xlsx" #设置数据上传到aEXCEL
savedata(datalist, savepath) #调用下面写的保存数据到excel的函数
savedatadb(datalist)
print("OK！") #函数成功调用保存之后输出ok

def getdata(baseurl, num):
datalist = []
x = [str(i) for i in range(1, num+1)] # 字符串类的数字序列，用于拼接网址
global name # 用于拼接网址
name = str(input("请输入查找的相关内容：")) # 用于拼接网址
for i in range(0, num):
# https://cd.fang.lianjia.com/loupan/pg2rs1
# 爬取网页
url = baseurl + "pg" + x[i] + "rs" + name
print(url)
resp = requests.get(url) #使用get()方法抓取网页信息
# print(resp.text)

#用etree.HTML来解析这个网页的结构，最后通过xpath获取自己所需的内容
html = etree.HTML(resp.text)

# 获取网页信息
divs = html.xpath("/html/body/div[3]/ul[2]/li")