*****声明:此实例仅用于学习 *****
1.网页重定向 。
在分析房天下网站,不难发现每个网页有个重定向,比如:访问网页https://cd.esf.fang.com/chushou/3_211293494.htm会跳转至https://cd.esf.fang.com/chushou/3_211293494.htm?rfss=1-b71f212cbb874a451c-3a 这个网页,其实两个地址打开的是同一个网页
解决方法:在原网页源代码中找到重定向网址,request 新网址即可。
response=requests.get(url,headers = headers)
html=response.text
#网页重定向
pat=re.compile(r'点击跳转')
url=re.findall(pat,html)[0]
response=requests.get(url,headers = headers)
return response.text
2.bs4获取标签内容,部分代码
BeautifulSoup4是爬虫必学的技能。BeautifulSoup最主要的功能是从网页抓取数据,Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。BeautifulSoup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,如果我们不安装它,则 Python 会使用 Python默认的解析器,lxml 解析器更加强大,速度更快,推荐使用lxml 解析器。网上相关文章和介绍很多,不在此啰嗦。
temp_dict['房源']=soup.find('title').string
temp_dict['小区'] = soup.find('div',id="xq_message").get_text()
temp_dict['总价']=soup.find('div',class_="tab-cont-right").find('div',class_="trl-item price_esf sty1").get_text()
3.将数据保存在csv文件中。
我们将获取房源信息的