影刀RPA | 如何使用RPA采集小红书主页笔记，运行报错避坑指南

猫行迹

已于 2025-04-20 14:53:19 修改

阅读量421

点赞数 15

分类专栏：影刀RPA 文章标签：影刀RPA rpa 笔记小红书爬虫

于 2025-04-20 14:52:11 首次发布

本文链接：https://blog.csdn.net/2501_91112998/article/details/147365584

版权

影刀RPA 专栏收录该内容

7 篇文章

订阅专栏

使用影刀开发小红书数据采集的朋友应该会遇到这样一个问题，使用懒加载指令时常会报出找不到指定ID元素的错误，即使按照影刀社区提供的解决方法处理也有概率报错

打开F12检查会发现，明明页面已经加载了三百多个元素，而捕获到的只有24个。

原来小红书用的不是懒加载技术，而是虚拟列表

我的解决方式如下，通过无限循环加字典实现

具体方法说明如下

由于每次循环都会获取一次相似元素列表，而相似元素列表中又有可能有重复数据，所以我选择用data-index属性作为键名，确保唯一性，(标题可能会存在一样的标题笔记，所以不以标题作为键名)

又因为，笔记链接在“//*[@id="userPostedFeeds"]/section”获取不到，所以应该多捕获一个元素列表“//*[@id="userPostedFeeds"]/section/div”

这里直接获取他们的源代码，调用Python模块对源代码进行清洗

Python代码如下

import xbot
from xbot import print, sleep
from .import package
from .package import variables as glv
from bs4 import BeautifulSoup
def data_index(html_content: str):
    soup = BeautifulSoup(html_content, 'html.parser')# 使用BeautifulSoup解析HTML
    element = soup.find(attrs={"data-index": True})# 查找所有带有data-index属性的元素
    data_index = element.get("data-index")# 提取data-index属性值
    return data_index
def data_title(html_content: str):
    soup = BeautifulSoup(html_content, 'html.parser')
    element = soup.find('span', {'data-v-51ec0135': ''})#查找标题元素
    data_title = element.text.strip()
    return data_title
def data_link(html_content: str):
    soup = BeautifulSoup(html_content, 'html.parser')
    a_tag = soup.find('a', class_=['cover', 'mask', 'ld'])# 查找指定class的a标签
    if a_tag and a_tag.has_attr('href'):# 获取href属性值
        link = a_tag['href']
        return f'https://www.xiaohongshu.com{link}'
    return None
def main(args):
    pass

记得导入bs4库