旅游评论情感分析(1)---爬虫(json篇)

本文介绍了作者进行NLP项目时如何爬取旅游评论数据,特别是从去哪儿网获取阳朔旅游景点评论的步骤。通过分析网页链接和JSON数据,使用Python伪装身份并抓取评论、分数和日期等信息。
摘要由CSDN通过智能技术生成

从今天开始准备整理一下,之前的写过的一些小项目。

这一个项目是我唯一一个接触NLP的项目,因为身边的老师大多是从事CV 机器视觉一块的项目。
而对于我而言,NLP其实是我学习机器学习的初衷。


所以关于这一个项目,我们第一个要做的就是获取数据。
这是作为机器学习的根本。没有数据根本就谈不上学习。

前言—选择网站进行数据挖掘

这次实训我们一共获取了飞猪, 途牛, 驴妈妈, 美团, 携程, 去哪儿, 马蜂窝,猫途鹰等相关网站的关于阳朔旅游景点的评论。

这其中比较复杂的是大众点评,因为cookie限制非常严。我和另一个同学一人选择一半进行爬取数据。

以下我用去哪儿的网站爬虫为例。

  1. 获取网页链接
    在这里插入图片描述
    这是我们事先做好阳朔在去哪儿网的网站调查。

我们发现其实去哪儿的数据是一个开发的平台,并且我不需要翻阅每一个网站,我只需要找到他每一页的json页面直接获取,十分的方便。

具体是怎么发现内含json直接传值,我们就必须先打开web控制台。
怎么获取json网站

我用的firefox浏览器,打开网选项,并且在网络中只看XHR。

这时候,我们再通过点击下一页评论就可以找到json的相关网站。

通过对比json网站,我们发现 他的网

  • 1
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值