微博超话内容爬取技巧/要点

本文介绍了如何使用微博爬虫技术,包括选择合适的网页源(weibo.com和m.weibo.cn),设置headers和cookie,观察网页元素变化以调试代码,以及如何抓取并解析数据,特别强调了参数调整对获取信息的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

参考博客:微博数据采集,微博爬虫,微博网页解析,完整代码(主体内容+评论内容)_微博数据爬虫-CSDN博客

注意微博域名!!

微博有好几个网页域名,这里我只用到了两个就简单介绍两个,分别是:weibo.com和m.weibo.cn

这两个的元素布局方式不一样,展示的信息也不一样

这里我用weibo.com爬取用户主页,用m.weibo.cn爬取超话推文

具体情况具体分析最好两个都打开看看最符合自己要求的是哪个,看好了再爬!!!

1.找到要爬取的网页

去到超话--开发者模式--网络--选择HXR过滤--找到包含所有信息的文件(个人经验选择getIndex?extparam=......这样格式的)--预览--检查是否有我们需要的

可以点进网址URL查看具体元素,便于搜索(ctrl+f)

确认后,复制URL 

2.设置 headers和cookie

headers = {
        'Cookie':'',
        'authority': 'm.weibo.cn',
        'Cache-Control':'',
        'accept': '',
        'accept-language': '',
        'Referer':'',
        'sec-ch-ua': '',
        'sec-ch-ua-mobile': '',
        'sec-ch-ua-platform': '',
        'sec-fetch-dest': '',
        'sec-fetch-mode': '',
        'sec-fetch-site': '',
        'sec-fetch-user': '',
        'upgrade-insecure-requests': '',
        'user-agent': '',
    }

 这里给出的代码参数可能不完全,有些没有提及,如果能爬出来就不用管,页面响应失败就增加请求头参数

3.根据需求观察网页变化调试代码

根据需求点击网页,观察页面变化,一步步调试,这个阶段最花时间!!!

这一步的重点是观察负载里面的参数变化

比如,按最新评论或者热门来分类

 再点击 热门

可以观察到是containerid参数的后缀在变化 

4.获取网页

注意,获取后的文件格式!!如果是按照我的步骤来的,获取后是json格式

    response = requests.get(url=url, headers=headers).json()
    # print(response)
    card_lists = response.get('data').get('cards')[-1].get('card_group')
    # 字典才有get方法,列表要[0]之后再用get(前提是列表的值为字典)

字典才有get方法,列表要[0]之后再用get(前提是列表的值为字典)

 5.获取内容

后面就是常规的内容获取,原博客也有具体代码我就不赘述了


更新:可以用API,更简单

顺带提一句,接爬虫单子,学生价,大学生挣点饭钱

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值