python爬虫——爬取房天下

本文介绍了一种使用Python爬虫从房天下网站抓取房地产信息的方法。通过BeautifulSoup解析网页,提取房屋的户型、面积、价格等关键信息,并利用pandas进行数据整理,最后将数据存储到MySQL数据库中。代码详细展示了数据抓取、清洗和存储的全过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

python爬虫——爬取房天下

话不多说,直接上代码!

import requests as req
import time
import pandas as pd
from bs4 import BeautifulSoup
from sqlalchemy import create_engine
 
global info

def getHouseInfo(url):
	info = {}
	soup = BeautifulSoup(req.get(url).text,"html.parser")
	resinfo = soup.select(".tab-cont-right .trl-item1")
	# 获取户型、建筑面积、单价、朝向、楼层、装修情况
	for re in resinfo:
		tmp = re.text.strip().split("\n")
		name = tmp[1].strip()
		if("朝向" in name):
			name = name.strip("进门")
		if("楼层" in name):
			name = name[0:2]
		if("地上层数" in name):
			name = "楼层"
		if("装修程度" in name):
			name = "装修"
		info[name] = tmp[0].strip()
	xiaoqu = soup.select(".rcont .blue")[0].text.strip()
	info["小区名字"] = xiaoqu
	zongjia = soup.select(".tab-cont-right .trl-item")
	info["总价"] = zongjia[0].text
	return info
 
domain = "http://esf.anyang.fang.com/"
city = "house/"

#获取总页数
def getTotalPage():
	res = req.get(domain+city+"i31")
	soup = BeautifulSoup(res.text, "html.parser")
	endPage = soup.select(".page_al a").pop()['href']
	pageNum = endPage.strip("/").split("/")[1].strip("i3")
	print("loading.....总共 "+pageNum+" 页数据.....")
	return pageNum
 
# 分页爬取数据
def pageFun(i):
	pageUrl = domain + city + "i3" +i
	print(pageUrl+" loading...第 "+i+" 页数据.....")
	res = req.get(pageUrl)
	soup = BeautifulSoup(res.text,"html.parser")
	houses = soup.select(".shop_list dl")
	pageInfoList = []
	for house in houses:
		try:
			# print(domain + house.select("a")[0]['href'])
			info = getHouseInfo(domain + house.select("a")[0]['href'])
			pageInfoList.append(info)
			print(info)
		except Exception as e:
			print("---->出现异常,跳过 继续执行",e)
	df =  pd.DataFrame(pageInfoList)
	return df
 
connect = create_engine("mysql+pymysql://root:root@localhost:3306/houseinfo?charset=utf8")
 
for i in range(1,int(getTotalPage())+1):
	try:
		df_onePage = pageFun(str(i))
	except Exception as e:
		print("Exception",e)
	pd.io.sql.to_sql(df_onePage, "city_house_price", connect, schema="houseinfo", if_exists="append")

运行结果:
在这里插入图片描述
在这里插入图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值