本来准备这个暑假好好复习,但学校安排暑期实践,既然学校安排这个,而且我自己也觉得需要提高一下自己的能力,所以静下心来做点事吧。我们要做到项目是分析北京地区的租房的信息分析。
我们需要做的是爬取链家网站上北京地区的租房信息。链家作为国内比较出名的房地产中介公司,发布的房地产租房信息还是不叫权威的。
我们需要做的分为两步:找到各个租房页面的链接,爬取每个租房页面的数据。
第一步找到每个租房页面的链接,北京地区的租房页面的初始链接为https://bj.lianjia.com/zufang/pg1/,下一页的地址就是把后面的pg1改成pg2,以此后推,一共有100个页面。
具体实现代码如下:
for i in range(1,101):
firsturl=r"https://bj.lianjia.com/zufang/pg%d/"%i
# list.append(firsturl)
title,l=frist(firsturl)
我们需要在这个页面上爬取每个具体房屋页面的URL地址。
具体实现代码如下:
def frist(firsturl):
time.sleep(3)
title=[]
l=[]
html=requests.get(firsturl)
#html可能乱码,soup会转码
soup = BeautifulSoup(html.content)
for link in soup.find_all('h2'):
if len(str(link))>84:
#