NGA论坛IP数据爬虫及分析

本文介绍了作者利用Python编写爬虫,抓取NGA论坛用户IP数据的过程,包括配置headers、爬取版面页和主题页、获取用户IP以及结果处理等步骤,最终对数据进行分析。此外,作者还分享了自己的个人博客链接。
摘要由CSDN通过智能技术生成

前言

NGA论坛刚刚开放了用户IP显示功能,早就想查查泥潭精英充分的我连夜花费数个小时写了个IP爬虫出来,看看都是哪些人在泥潭大漩涡板块活跃

爬虫

包与headers

首先是配置headers:

import requests as req
from lxml import etree
import numpy as np
import time
import re


headers = {
   
    # 在浏览器中,network查看
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.5060.114 Safari/537.36 Edg/103.0.1264.62',
    'Cookie': '',
    'Connection':'close',
}


# API文档参考 https://github.com/wolfcon/NGA-API-Documents

版面页

然后是从网事杂谈板块前几页的爬取到各个帖子的链接(API接口参数可查看文档)

F12查找到对应元素(不准确,需要自行修改)方便抓取链接。

urls = []  # 保存页面uid
limit = 5  # 版面页数,请勿设置过多

for i in range(1,limit+1):  # 获取近期网事杂谈板块回复前limit页中的帖子地址
    
    time.sleep(1) 
    
    mainPage = req.get('https://bbs.nga.cn/thread.php?fid=-7&order_by=lastpostdesc&page='+str(i),headers=headers,verify=False)
    doc = etree.HTML(mainPage
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值