前段时间参加的一个大创项目,要求爬取携程网桂林龙脊的网上评论数据,直接进携程网一搜,还是龙脊梯田的评论居多,后面直接选择爬取龙脊梯田的评论数据作为参考了,哈哈。
下面是具体实现:
参考链接:https://you.ctrip.com/sight/longjititian970/14892.html
打开链接找到评论数据如下:
打开 开发者工具后点击网页的下一页可以获得下面网页请求信息,这便是获取网页评论的URL了
下面把这些信息搬进python就好了~~
代码我先用python的requests第三方网页请求类库,结合re正则表达式筛选需要的评论信息。
导入包
import requests
import random
import re
import time
写入上面URL
if __name__ == '__main__':
url='https://you.ctrip.com/destinationsite/TTDSecond/SharedView/AsynCommentView'
m=mySpider(url)
m.spider()
请求头信息,照搬
def getHeader(self):
headers={
'authority': 'you.ctrip.com',
'method': 'POST',
'path': '/destinationsite/TTDSecond/SharedView/AsynCommentView',
'scheme': 'https',
'accept': '*/*',
'accept-encoding': 'gzip, deflate, br',