python爬取晋江文学城_Python爬取晋江文学城网友交流区(兔区)帖子里的共多少个id...

本文介绍了如何使用Python爬取晋江文学城兔区(网友交流区)的帖子,通过分析网页源代码获取每个帖子的总页数,并从每一页中提取并去重回复者的固定ID。
摘要由CSDN通过智能技术生成

晋江文学城网友交流区,俗称兔区,是一个以明星八卦为主要讨论内容的匿名论坛。

1:该区帖子特点如下:

第一:论坛中每一个帖子回复只会显示一个id;

第二:同一个帖子里,同一个登录账号的id是固定不变的。

2:在取得一个帖子内有多少个固定id时,按照以下思路:

第一:该贴有多少页;

第二:找到id;

第二:对于多次回复的同一账号id的去重。

3:分析网页的特点:

第一:定位这帖子共多少页:

首先打开帖子的第一页:

以帖子为例(找一个不引战的帖子很难,我寻思二次元应该好一点)

网址:http://bbs.jjwxc.net/showmsg.php?board=2&boardpagemsg=1&id=6577455

可以看到首页有一个“共5页”,所以我们就可以知道这个帖子有5页了,所以把这个参数取下来就行。

具体参数右键-“检查网页源代码”可以找到:

58694dada5af?utm_campaign=haruki

1.PNG

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值