xhs_search_comment_tool | 采集小红书评论区数据的界面软件工具,支持多关键词、评论时间、IP属地的筛选

本软件工具仅限于学术交流使用,严格遵循相关法律法规,符合平台内容合法性,禁止用于任何商业用途!

一、背景分析

1.1 开发背景

xhs作为国内极具影响力的社区种草平台,汇聚海量用户且拥有极高的日活跃度,其笔记下方的评论区蕴含丰富的信息价值。在合法合规、遵循平台规则以及尊重用户隐私的前提下,对xhs评论数据进行合理采集分析,能够帮助企业深入了解消费者对商品和品牌的评价与反馈,从而更好地把握消费者喜好、需求以及购买意向。

基于这样的探索需求,我运用 Python 开发了一款数据采集辅助软件 ——【爬xhs搜索评论软件】 。这款软件严格按照平台公开的接口规范和数据使用政策进行设计开 发,确保数据采集行为的合法性与合规性。

软件支持两种合规的数据采集模式:

1.根据关键词采集评论:在遵循平台搜索规则和数据获取权限的基础上,通过合法输入笔记关键词,获取对应的笔记链接,进而从允许访问的笔记链接中提取评论信息 。
2.根据笔记链接采集评论:用户提供合法获取且平台允许分析的笔记链接,软件依此合规地获取相关评论数据。

用户可根据自身需求,在合法合规的前提下选择其中一种模式进行数据采集。

1.2 软件界面

软件界面,如下:

请在此添加图片描述

1.3 结果展示

在合法合规及遵守平台规则的前提下,展示符合数据使用范围的爬取结果示例:

爬取结果 1 - 笔记数据:

请在此添加图片描述

爬取结果 2 - 评论数据:

请在此添加图片描述

1.4 演示视频

软件在合法合规操作流程下的运行演示:

https://www.bilibili.com/video/BV1uDtneqEhA

1.5 软件说明

几点重要说明,请详读了解:

1. Windows用户可直接双击打开使用,无需Python运行环境,操作便捷。
2. 软件严格通过平台公开允许的接口协议进行数据交互,并非通过模拟浏览器等RPA类工具,确保稳定性与合规性 。
3. 先在cookie.txt中填入符合平台规定获取方式的自己的cookie值,方便重复使用(内附合法合规的cookie获取方法)。
4. 支持按平台允许的笔记类型(综合/视频/图文)和排序方式(综合/最新/最热)进行数据获取。
5. 支持多个的设置项有:在平台规则允许范围内的笔记关键词、笔记链接、评论关键词、IP属地 。
6. 每个关键词最多可采集220条笔记,与网⻚端在平台规则下的搜索数量一致。
7. 爬取过程中,每爬一⻚,存一次csv。并非爬完最后一次性保存!防止因异常中断导致丢失前面的数据(每条间隔1~2s,避免对平台服务器造成过大压力)。 8 8. 爬取过程中,有log文件详细记录运行过程,方便回溯,同时确保记录内容符合平台隐私政策。
8. 爬取过程中,在符合平台数据处理规则下,评论筛选同时进行。并非全部评论爬完再一次性筛选!所以效率较高!
9. 笔记csv含10个字段,有:关键词,⻚码,笔记id,笔记链接,笔记标题,笔记类型,点赞数,用户id,用户主⻚链接,用户昵称(确保各字段数据获取与使用符合平台及用户隐私相关规定 11. 评论csv含10个字段,有:笔记链接,⻚码,评论者昵称,评论者id,评论者主⻚链接,评论时间,评论IP属地,评论点赞数,评论级别,评论内容。

以上。

二、主要技术

软件全部模块采用 python 语言开发,主要分工如下:

• tkinter:GUI软件界面

• requests:通过合法合规的接口进行爬虫请求

• json:解析响应数据

• pandas:保存csv结果、数据清洗

• logging:日志记录,确保记录内容符合平台与法律规定

出于版权考虑,暂不公开源码,仅向用户提供软件使用。同时,确保软件使用过程严格遵循平台规则与相关法律法规。

三、功能介绍

3.0 填写 cookie

开始采集前,需按照平台规定的合法方式获取并把自己的 cookie 值填入 cookie.txt 文件。

cookie 获取说明 1:

请在此添加图片描述

(确保获取方法符合平台规则)

3.1 根据关键词爬评论

爬取思路:在遵循平台规则下,通过合法输入笔记关键词 -> 获取平台允许访问的笔记链接 -> 提取允许采集的评论 先填写左上区在平台规则允许范围内的笔记筛选项,再填写右上区符合平台规定的评论筛选项,点击按钮 1 进行合规的数据采集。

3.2 根据笔记链接爬评论

爬取思路:使用合法获取且平台允许分析的笔记链接 -> 提取允许采集的评论 先填写中上区合法合规的笔记链接,再填写右上区符合平台规定的评论筛选项,点击按钮 2 进行合规的数据采集。

四、主要技术栈

软件全部模块采用python语言开发,主要分工如下:

tkinter:GUI软件界面
requests:爬虫请求
json:  解析响应数据
pandas:保存csv结果、数据清洗
logging:日志记录

软件界面核心代码:

# 创建主窗口
root = tk.Tk()
root.title('爬xhs搜索评论软件v1.1')
# 设置窗口大小
root.minsize(width=900, height=650)

爬虫部分代码:

# 发送请求
r = requests.get(url, headers=h1)
# 接收响应数据
json_data = r.json()

保存结果数据核心代码:

# 保存数据到DF
df = pd.DataFrame(
	{
		'笔记链接': 'https://www.xiaohongshu.com/explore/' + note_id,
		'笔记链接_长': note_url2,
		'页码': page,
		'评论者昵称': nickname_list,
		'评论者id': user_id_list,
		'评论者主页链接': user_link_list,
		'评论时间': create_time_list,
		'评论IP属地': ip_list,
		'评论点赞数': like_count_list,
		'评论级别': comment_level_list,
		'评论内容': content_list,
	}
)
# 保存到csv
df.to_csv(self.result_file2, mode='a+', header=header, index=False, encoding='utf_8_sig')

日志记录功能核心代码:

def get_logger(self):
	self.logger = logging.getLogger(__name__)
	# 日志格式
	formatter = '[%(asctime)s-%(filename)s][%(funcName)s-%(lineno)d]--%(message)s'
	# 日志级别
	self.logger.setLevel(logging.DEBUG)
	# 控制台日志
	sh = logging.StreamHandler()
	log_formatter = logging.Formatter(formatter, datefmt='%Y-%m-%d %H:%M:%S')
	# info日志文件名
	info_file_name = time.strftime("%Y-%m-%d") + '.log'
	# 将其保存到特定目录,ap方法就是寻找项目根目录,该方法博主前期已经写好。
	case_dir = r'./logs/'
	info_handler = TimedRotatingFileHandler(filename=case_dir + info_file_name,
											when='MIDNIGHT',
											interval=1,
											backupCount=7,
											encoding='utf-8')
	self.logger.addHandler(sh)
	sh.setFormatter(log_formatter)
	self.logger.addHandler(info_handler)
	info_handler.setFormatter(log_formatter)
	return self.logger

五、文章出处

引自:【爬虫软件】2025小红书采集工具,根据搜索关键词批量爬笔记下的评论!

### 小红书关键词搜索结果抓取的实现方法 为了实现小红书平台上的关键词检索功能,可以利用现有的开源工具 `xhs` 或者自行构建爬虫逻辑。以下是具体的实现方式: #### 工具选择与安装 如果决定使用现成的小红书爬虫库 `xhs`,可以通过以下命令安装该库[^1]: ```bash pip install xhs ``` #### 使用 `xhs` 实现关键词搜索 `xhs` 提供了一组简单易用的 API 接口来完成数据抓取任务。下面是一个简单的代码示例,展示如何通过此库执行关键词搜索并获取相关内容。 ```python from xhs import XHSClient # 初始化客户端 client = XHSClient() # 设置搜索关键字 keyword = "旅行" # 执行搜索操作 search_results = client.search_notes(keyword) # 输出搜索结果 for result in search_results: print(f"标题: {result['title']}, 描述: {result['desc']}") ``` 上述代码展示了如何初始化 `XHSClient` 并调用其 `search_notes` 方法来进行笔记搜索。需要注意的是,在实际应用中可能还需要处理分页、异常捕获等问题。 #### 自定义爬虫开发 如果不希望依赖第三方库,则可以选择手动编写爬虫脚本。这通常涉及以下几个方面的工作流程[^2]: - **模拟登录**: 如果目标页面需要用户身份验证才能访问某些资源,则需先完成模拟登录过程。 - **发送 HTTP 请求**: 利用 Python 的 requests 库向服务器发起 GET/POST 请求。 - **解析 HTML/XML 数据**: 借助 BeautifulSoup 或 lxml 解析返回的内容,定位所需字段位置。 - **存储结构化数据**: 把提取出来的信息保存到数据库或者文件当中以便后续分析。 这里给出一段基础版自定义爬虫的例子: ```python import requests from bs4 import BeautifulSoup def fetch_search_results(keyword, page=1): url = f"https://www.xiaohongshu.com/search?keyword={keyword}&page={page}" headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)', # 可能还需加入其他必要头信息 } response = requests.get(url, headers=headers) soup = BeautifulSoup(response.text, 'html.parser') notes = [] for item in soup.find_all('div', class_='note-item'): title = item.find('h3').get_text() desc = item.find('p').get_text() if item.find('p') else '' notes.append({'title': title, 'description': desc}) return notes if __name__ == "__main__": keyword = input("请输入要查询的关键字:") results = fetch_search_results(keyword) for note in results: print(note) ``` 注意:以上仅为演示目的提供基本框架,真实环境中应考虑更细节如反爬机制应对策略等。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值