使用Python爬取小红书笔记与评论(仅供学习交流)_python爬取小红书关键词所有笔记评论(1)

本文介绍了如何使用Python通过JS注入获取小红书的加密参数,包括x-s、x-t,以进行笔记和评论的爬取。作者分享了使用Playwright和pyppeteer的代码示例,并强调了爬虫工程化的后续步骤。
摘要由CSDN通过智能技术生成

【🏠作者主页】:吴秋霖
【💼作者介绍】:擅长爬虫与JS加密逆向分析!Python领域优质创作者、CSDN博客专家、阿里云博客专家、华为云享专家。一路走来长期坚守并致力于Python与爬虫领域研究与开发工作!
【🌟作者推荐】:对爬虫领域以及JS逆向分析感兴趣的朋友可以关注《爬虫JS逆向实战》《深耕爬虫领域》
未来作者会持续更新所用到、学到、看到的技术知识!包括但不限于:各类验证码突防、爬虫APP与JS逆向分析、RPA自动化、分布式爬虫、Python领域等相关文章

作者声明:文章仅供学习交流与参考!严禁用于任何商业与非法用途!否则由此产生的一切后果均与作者无关!如有侵权,请联系作者本人进行删除!

1. 写在前面

除了通过对X-s、X-s-c参数进行分析还原加密算法,还有之前文章中提到的通过JS注入免扣加密算法的方式获取加密参数,进行数据的抓取!此前,作者也是尝试过封装过以下API的功能:

以下是一个简单的 Python 爬虫示例,可以用于爬取小红书平台的数据。请注意,这个代码仅作为学习参考,未经小红书官方许可不得用于商业用途。 ```python import requests import json headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'} def get_data(pageNum): url = 'https://www.xiaohongshu.com/fe_api/burdock/weixin/v2/search/notes' params = { 'sort': 'general', 'keyword': '化妆品', 'page': pageNum, 'pageSize': 20, 'needGifCover': 'false', 'platform': 'all' } response = requests.get(url, params=params, headers=headers) json_data = json.loads(response.text) return json_data if __name__ == '__main__': for i in range(1, 5): data = get_data(i) for item in data['data']: print(item['title']) ``` 上面的代码使用 requests 库发送 HTTP 请求,并使用 json 库解析响应数据。其中,`get_data` 函数接受一个参数 `pageNum`,表示要获取的页码。该函数构造了一个 HTTP GET 请求,并使用 requests 库发送请求。请求参数包括排序方式、关键词、页码、每页大小、是否需要 GIF 封面以及平台类型。请求成功后,调用 json.loads() 将响应数据转换为 Python 字典对象。 在主函数中,我们循环调用 `get_data` 函数,获取前 4 页的数据。对于每一页的数据,我们遍历其中的每一条笔记,打印出标题。当然,你可以根据自己的需求对数据进行存储或其他处理。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值