python链家二手房_python采集链家二手房信息

最新推荐文章于 2024-08-13 21:38:27 发布

weixin_39721807

最新推荐文章于 2024-08-13 21:38:27 发布

阅读量183

点赞数

文章标签： python链家二手房

都说现在的房价很高，具体有多高呢，我们一起来看看。

现在网上关于房子的价格以及交易信息鱼龙混杂，与实际情况相差比较大，目前链家平台的数据应该是相对比较可靠的，所以这次我们就打算去链家爬一爬。

说到爬虫，前面也有说过，无非就三个主要的步骤

1、获取目标网页或接口

2、从目标网页或接口中解析并提炼出你要的数据字段

3、数据保存

我们今天就以链家平台上北京地区二手房为例，首先是打开目标网页。

https://bj.lianjia.com/ershoufang/

网页下面有分页，一共提供了 100 页数据，也就是说这 100 页都是我们的目标网页，所以第一件事就是要获取到总页数。

打开开发者模式可以看到，有个字段 totalPage 字段，这个字段就是总页数，如下图。

有了总页数之后呢，接下来就是要对这 100 个页面循环解析了，把我们要的字段和数据都解析出来。

为了获取更详细的数据，这里我们进入到详情页去解析数据，同样打开开发者模式，看到有总价 total(总价)、unitPriceValue(单价)、areaName(位置)等字段，这些就是我们要获取的主要字段。

解析得到字段数据后，就要把数据保存起来，保存数据的方式一般有保存到数据库(Mysql、MongoDB)和保存到本地文件(txt、excel、csv)，为了方便起见，这里我们将数据只保存到本地 csv 文件。

上面说的就是这个爬虫的大致过程，下面是一段主要代码，在公众号后台回复关键字【链家】可获取完整代码，有需要 csv 文件数据的也可以后台私信联系我哈。

def getContent(self, url):

totalPage = self.getTotalPage(url)

totalPage = 2 #为了方便调试，我这里把总页数写死了

# 循环处理每个目标页面

for pageNum in range(1, totalPage+1 ):

url = "https://bj.lianjia.com/ershoufang/pg{}/".format(pageNum)

print("正在获取第{}页数据: {}".format(pageNum,url))

response = requests.get(url, headers = self.headers)

soup = BeautifulSoup(response.text, "html.parser")

links = soup.find_all("div", class_ = "info clear")

for i in links:

link = i.find("a")["href"]

detail = self.parseDetail(link)

self.datas.append(detail)

#为了防止反爬限制休眠1s

time.sleep(1)

# 数据存储到csv文件中

data = pd.DataFrame(self.datas)

# 自定义字段

columns = ["小区", "户型", "面积", "价格", "单价", "朝向", "电梯", "位置", "地铁"]

data.to_csv("./lianjiaData.csv", encoding='utf_8_sig', index=False, columns=columns)

weixin_39721807

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。