爬取马蜂窝用户评论界面中的用户ID、用户名以及评分

最新推荐文章于 2024-04-19 15:01:16 发布

beyond_LH

最新推荐文章于 2024-04-19 15:01:16 发布

阅读量4.7k

点赞数 2

分类专栏： Python爬虫文章标签：爬虫马蜂窝正则数据清洗 compile&findall

本文链接：https://blog.csdn.net/beyond9305/article/details/80948977

版权

Python爬虫专栏收录该内容

16 篇文章 145 订阅 ¥9.90 ¥99.00

订阅专栏

本文介绍了如何使用正则表达式和Python的compile及findall方法从马蜂窝的用户评论界面抓取用户ID、用户名及评分。通过设置正则模式，包括三个分组来匹配所需内容。同时讨论了不加括号的.*?如何影响分组结果。

摘要由CSDN通过智能技术生成

距离上篇爬虫有些久了，但不会缺席的~~~

昨晚去看了“我不是药神”，比较压抑，又感动，有悲愤，也有无奈，生命啊，请珍惜。

上次爬取了马蜂窝旅行都江堰景点的用户评论信息，比较杂，我们选取其中的用户ID、用户名以及用户评分，开始数据的清洗吧……

主要代码就三行：

pattern=r'<a class="name" href="/u/(.*?).html" target="_blank">(.*?)</a>.*? <span class="s-star s-star(.*?)"></span>'
items=re.compile(pattern,re.S|re.M).findall(ht2)
it=str(items)

承接上篇，我们转换得到了ht2，设置了正则表达式，注意有三个的分组，即三个（.*?），这就是我们所要获取的三组内容，具体的语法规则在之前的博客已经说了，正则这一块水还很深，刚踏出一小步……compile和findall方法也提到了࿰

了解本专栏

订阅专栏解锁全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

beyond_LH

关注关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

订阅专栏

爬取马蜂窝用户评论页面

想不出一个好的标题，就用这个吧

06-16

7893

这次先爬一下马蜂窝旅行的用户评论页面，即“蜂蜂点评”，首先进入所要爬取的页面，推荐使用谷歌浏览器，按F12显示源码信息，选中js，因为每一页的评论都是动态加载的（注意到不管点第几页浏览器的地址栏都是不变的），用到了ajax技术，我们随意点一页看一下，比如第二页：可以看到密密麻麻的信息，大家如果想详细了解每一项的意思可以自行谷歌，咱们在这就不细说了，其实大部分信息看名字就能读懂，比如编码格式，语言，...

马蜂窝数据爬取

qq_40997629的博客

10-11

2160

最近，针对马蜂窝网站数据进行了爬取，主要有个人资料，游记，图片等信息。问题一：马蜂窝网站加速乐问题解决，正常第一次访问会返回一段js ,如下图，这个时候你如果不是专业的js开发者的话，简单的方式就是把前后的script标签去掉。然后在最前面价格function，再把代码的后个eval替换成return,控制台执行的话，会返回下一个js, 返回的js类似于,下面带红框的部分再次...

参与评论您还未登录，请先登录后发表或查看评论

马蜂窝评论爬取

qq_43043256的博客

02-23

1571

分析网址 https://w.mafengwo.cn/sfe-app/cmt_list.html?busi_type=customize&mdd_id=10183 网址返回的评论数据是json格式。但是返回的数据进行了字体加密，我们需要对它进行破解。字体反爬的详细步骤我在猫眼电影反爬中有所介绍。查看器搜索woff：第一次找到的是带woff的图片，我们需要按enter键继续搜索，直到...

Python爬虫爬取马蜂窝旅游景点评分、评论、评论日期（针对只能爬取五页评论做了改动）

03-28

①马蜂窝景点的评论只能看到五页内容，因此按评论的主题对其进行爬取（虽然每个主题也只能看到五页，但爬取的结果总归是比五页多很多），爬取字段有景点评分、评论、评论日期。 ②以马蜂窝某景点为例，其评论高达3000多条，但这3000多条并非是完全向用户展示的，向用户展示的只有5页，数了一下每页15条评论，也就是75条评论，有点太少了吧！ ③因此想了个办法尽可能多爬取一些评论，根据我对爬虫爬取数据法律法规的相关了解，爬取看得到的数据是合法的，而在评论最开始的这个地方有对评论的分类，当然每个分类主题也是最多能看到5页内容，但是肯定会比我们被动的只爬取5页多很多内容，因此我们选择按主题分类去爬取评论。

CSDN爬虫（五）——CSDN用户(所有)爬取+常用爬虫正则整理

高远的博客

10-17

1万+

CSDN爬虫（五）——CSDN用户(所有)爬取+常用爬虫正则整理说明开发环境：jdk1.7+myeclipse10.7+win74bit+mysql5.5+webmagic0.5.2+jsoup1.7.2 爬虫框架：webMagic 建议：建议首先阅读webMagic的文档，再查看此系列文章，便于理解，快速学习：http://webmagic.io/ 开发所需jar下载（不包括数据库操作相关jar

python 爬取马蜂窝景点翻页文字评论的实现

09-18

本教程主要讲解如何使用Python爬取马蜂窝网站上的景点翻页文字评论，这可以帮助我们了解网络爬虫的基本工作原理和实战技巧。首先，我们需要确定目标网页。在本例中，我们关注的是马蜂窝上关于黄鹤楼的评论，页面...

爬取马蜂窝旅游数据，包括酒店、美食、景点的评论数据以及游记数据（2021.6.28可用）

06-28

具体数据酒店评论、美食评论、以及景点自身评论：评论用户、评论用户ID、用户等级、评论内容、评论有用性、评论时间等等游记内容：游记地址、浏览量、评论量、游记内容、游玩时间、游玩天数、同行人等等

获取马蜂窝景点数据和景点评论数据

weixin_43847900的博客

05-25

1290

CREATE TABLE `poi` ( `poi_id` int NOT NULL, `name` varchar(128) DEFAULT NULL, `image` varchar(512) DEFAULT NULL, `link` varchar(512) DEFAULT NULL, `lat` float DEFAULT NULL, `lng` float DEFAULT NULL, `type` int DEFAULT NULL, `is_cnmain` int.

Python爬取马蜂窝各城市游记总数

qq_22301571的博客

05-11

1227

Python爬取马蜂窝各城市游记总数 马蜂窝的省和直辖市都有一个对应的编号，编写程序获取编号第一步创建一个Spider的类，headers为一个字典，user-agent从浏览器中获取，使用Chrome打开任意网页，右键检查，选中network，便可找到user-agent，如下图：将user-agent的内容复制到headers字典中 class Spider: # ua伪装 headers = {'user-agent': '复制到此处'} # 起始url start_u

python爬虫之爬取携程景点评价（5）

最新发布

m0_61973119的博客

04-19

2121

通过搜索，发现请求方法不在是get,而是post,且预览并得不到我们需要的评论，反而是响应界面才可以，则针对这种情况，我们需要重新更改代码。中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/清华：https://pypi.tuna.tsinghua.edu.cn/simple。

【数据处理】对之前爬取的评论数据进行数据处理

GS2333的博客

10-03

620

nlp的数据处理，设计数据清洗，，去停用词，分词等工作。

python 爬取_Python爬虫爬取马蜂窝北京景点信息

weixin_39849671的博客

11-23

841

背景来北京有些日子了，但是每个周末都窝在六环外的村里躺着。想想不能再这么浪费时间了，得出去玩！但是去哪玩呢？于是乎想着，先把北京的景点以及位置都保存起来，然后在分析分析做个出行计划。从哪里获取景点信息呢？也正是最近世界杯马蜂窝的洗脑广告，想着就到马蜂窝上去爬取吧。前言本次爬虫使用python开发。自己并不是py工程师，但是还是很喜欢python这门语言的，毕竟人生苦短。所以，一直都想着把pytho...

python爬虫——爬取马蜂窝景点翻页文字评论

qq_45373920的博客

01-19

4775

python爬虫——爬取马蜂窝景点翻页文字评论使用Chrome、python3.7、requests库和VSCode进行爬取马蜂窝黄鹤楼的文字评论(http://www.mafengwo.cn/poi/5426285.html)。首先，我们复制一段评论，查看网页源代码，按Ctrl+F查找，发现没有找到评论，说明评论内容不在http://www.mafengwo.cn/poi/5426285.h...

爬取博客园帖子名和对应内容

jackwang1780的博客

08-01

342

#博客园：https://www.cnblogs.com/ 爬取帖子名和对应内容（图片可以跳过） #获取每页链接的模块 n=1 headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.87 Safari/537.36'} for k in range(200): try: print('正在爬取第%s

Python 爬虫获取某贴吧所有成员用户名

weixin_34204722的博客

04-05

394

最近想用Python爬虫搞搞百度贴吧的操作，所以我得把原来申请的小号找出来用。有一个小号我忘了具体ID，只记得其中几个字母以及某个加入的贴吧。所以今天就用爬虫来获取C语言贴吧的所有成员。计划很简单，爬百度贴吧的会员页面，把结果存到MySQL数据库中，等到所有会员都爬完之后。我就可以使用简单的SQL语句查询账...

python实现lfm_Python实现根据评论评分信息预测 (协同过滤，LFM,词向量)

weixin_39620334的博客

01-29

708

一.数据集train.dat共393366项，第一维是用户的代号，第二维是商品代号，第三项是用户对该商品的评分，第四项是评论数，第五项是评论内容。test.dat第一维是用户代号，第二维是商品代号。二.简单思路及实现过程这里简单先贴出代码实现，后期再慢慢补上具体过程说明~1．数据预处理去除部分无关常用词，这里调用nltk包，将评论词词词根化等，进行评论数据的预处理，存为new dat.datimp...

实验报告：用协同过滤算法对电影评分，并使用RMSE算出预测误差