房天下数据爬取及简单数据分析

最新推荐文章于 2024-08-16 18:14:18 发布

俊红的数据分析之路

最新推荐文章于 2024-08-16 18:14:18 发布

阅读量1.9k

点赞数 1

本文链接：https://blog.csdn.net/junhongzhang/article/details/103686826

版权

总第64篇

01|明确本次爬虫以及目的：

我是想看看太原的房地产情况，包括楼盘名称、价格、所处区域、评论数（一定程度上可以反映出该楼盘受欢迎程度）。

明确了目的以后就该去寻找这些数据的出处，也就是网站，由于太原互联网环境欠发达，所以好多房产APP上都没有太原，有的APP有，但是也只有几十家楼盘，最后在搜索的过程中锁定了房天下。这个楼盘数量还是可以的，也有我们需要的数据，所以就他了。

通过查看网页，我们知道目标数据存储在17页中，这就不是普通的静态网页爬取，这种需要翻页的数据爬取，我们一般有两种方法：一是通过修改url参数进行网页的切换，二是通过调用selenium模拟浏览器进行下一页的点击。

上面两个截图一个是17页，一个是9页对应的url，我们发现在参数上并没有明确的规律，看来利用修改参数的方法是行不通了，只能使用selenium,在使用selenium实现的过程中，我无意间发现了事情：

在进行元素审查时，我发现页面对应的href，即链接网站是有规律的，而且不是那么杂乱无章的，我就把href里面的对应链接粘贴到搜索框，发现真能跳转到相应的页面，看来是不需要使用selenium了，用修改参数的方法进行循环即可。

#导入常用的库
import random
import requests
import pandas as pd
from bs4 import BeautifulSoup

#建立a,b,c,d四个空列表用来存放一会抓取到的数据
a

关注