python爬取评论_python 爬取马蜂窝景点翻页文字评论的实现

使用Chrome、python3.7、requests库和VSCode进行爬取马蜂窝黄鹤楼的文字评论(http://www.mafengwo.cn/poi/5426285.html)。

首先,我们复制一段评论,查看网页源代码,按Ctrl+F查找,发现没有找到评论,说明评论内容不在http://www.mafengwo.cn/poi/5426285.html页面。

2020012014122732.png

回到页面,划到评论列表,右键检查,选择Network,然后点击后一页翻页,观察Network里的变化,我们要爬的文件就在下面的某个文件里(主要找XHR和JS两个模块)。选择Preview可以更好的让我们寻找我们想要的文件,然后选择Headers找到我们要爬的url。

2020012014122733.png

2020012014122734.png

经过分析我们找到要爬取的url是http://pagelet.mafengwo.cn/poi/pagelet/poiCommentListApi?callback=jQuery18102698237405245767_1579401525334&params=%7B%22poi_id%22%3A%225426285%22%2C%22page%22%3A2%2C%22just_comment%22%3A1%7D&_ts=1579402072160&sn=20e98d65a0&=1579402072161

然而点进去是这样的

2020012014122735.png

这个时候对比一下这两个页面的Request Headers,发现原页面多了个Refer参数

原页面

2020012014122736.png

2020012014122737.png

然后看一下请求get请求需要的参数Query String Parameters,其中poi_id是景点id,page是评论页面(翻页只用改变page的值就行)。

2020012014122738.png

?

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

import re

import time

import requests

#评论内容所在的url,?后面是get请求需要的参数内容

comment_url='http://pagelet.mafengwo.cn/poi/pagelet/poiCommentListApi?'

requests_headers={

'Referer':'http://www.mafengwo.cn/poi/5426285.html',

'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'

}#请求头

for numin range(1,6):

requests_data={

'params':'{"poi_id":"5426285","page":"%d","just_comment":1}' % (num)#经过测试只需要用params参数就能爬取内容

}

response=requests.get(url=comment_url,headers=requests_headers,params=requests_data)

if 200==response.status_code:

page= response.content.decode('unicode-escape','ignore').encode('utf-8','ignore').decode('utf-8')#爬取页面并且解码

page= page.replace('\\/','/')#将\/转换成/

#日期列表

date_pattern= r'

结果

2020012014122839.png

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持服务器之家。

原文链接:https://blog.csdn.net/qq_45373920/article/details/104037607

精彩推荐

Python

defaultpic.gif

这篇文章主要介绍了python处理csv数据的方法,实例分析了Python处理csv数据的技巧,需要的朋友可以参考下

...

kirkversion12922019-11-27

Python

defaultpic.gif

今天小编就为大家分享一篇使用tensorboard可视化loss和acc的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

...

正在努力学习的大金1342020-04-03

Python

defaultpic.gif

今天小编就为大家分享一篇TensorFlow实现打印每一层的输出,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

...

Kluiverthoo3002020-04-03

Python

defaultpic.gif

这篇文章主要介绍了python提取内容关键词的方法,适用于英文关键词的提取,非常具有实用价值,需要的朋友可以参考下

...

上大王3472019-12-03

Python

defaultpic.gif

这篇文章主要介绍了Python比较两个图片相似度的方法,涉及Python操作pil模块实现图片比较的技巧,具有一定参考借鉴价值,需要的朋友可以参考下

...

pythoner2952019-11-28

Python

1-19112G52056334-lp.png

这篇文章主要介绍了Python实现将n个点均匀地分布在球面上的方法,涉及Python绘图的技巧与相关数学函数的调用,具有一定参考借鉴价值,需要的朋友可以参考下...

redraiment3202019-11-27

Python

defaultpic.gif

这篇文章主要介绍了django 文件上传功能的相关实例代码,代码简单易懂,非常不错,具有一定的参考借鉴价值,需要的朋友可以参考下

...

二十七º3932020-04-02

Python

defaultpic.gif

这篇文章主要介绍了tensorflow-gpu安装的常见问题及解决方案,本文给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友参考下吧,需要的朋友可以...

上山老人1972020-04-08

© 2019-2020 脚本之家 | 服务器之家(www.zzvips.com)旗下站点 版权所有

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值