携程酒店评论爬虫心得

携程酒店评论爬虫心得

这次爬取数据,遇到了不少的困难,也走了很多弯路,特此写下帮助记忆。以下基本是我爬取数据的过程,前半段是弯路,可直接绕过,后半段是解决方法。

打开携程,南京YMCA酒店页面,可以发现如下布局:这里写图片描述
其中,酒店点评是我要找的内容。
一般来说,抓取内容采用 requests+xpath。如下:

import requests
from lxml import etree
url = 'http://hotels.ctrip.com/hotel/1678723.html?isFull=F#ctm_ref=hod_sr_lst_dl_n_1_1'
s = requests.get(url).text  #获取网页内容
body = etree.HTML(s) #解析网页,用于网页各内容的定位
#以用户名来做实验
user_name = body.xpath('//*[@id="divCtripComment"]/div[4]/div[12]/div[1]/p[2]/span/text())
print(user_name)

结果显示正常,但是可以由图1看到,酒店点评是进行翻页的,存在下一页按钮,以及页码搜索框等。
因此,如果要获取不同页面的内容,需要有每一页的索引。
但是此处,点击下一页,网页的url不改变。
初步确定为”动态加载

寻找url的过程比较长久。分别包含以下:
1. 关闭JavaScript,可以发现每一页有一个独立的url。
但是,将

  • 8
    点赞
  • 31
    收藏
    觉得还不错? 一键收藏
  • 22
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 22
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值