目录
配置 Discord 信息,以及 Discord 数据抓取频度
前言
关于 Discord
Discord 在游戏行业扮演着重要角色,作为一个专为游戏玩家设计的社交平台。它提供了实时语音、文字和视频通信功能,让玩家可以轻松组队、讨论策略和分享游戏体验。游戏开发商和发行商也利用 Discord 建立官方社区,与玩家互动并收集反馈。随着时间推移,Discord 不仅服务于游戏玩家,还扩展到教育和其他领域,成为一个多功能的社交平台。它的成功促使许多游戏厂商重视社区运营,将其视为长线运营的必备能力。通过在 Discord 上进行舆情分析,游戏公司可以及时捕捉玩家的声音,快速应对潜在危机,并利用数据驱动决策,从而提升游戏的整体运营效果和玩家满意度。
本文会带大家一起逐步搭建一套自动化分析 Discord 上玩家舆情的解决方案,通过该方案您可以制定执行周期,通过 discord.py 爬取玩家聊天分析其语义,并作出舆情判断。
架构说明
本架构中我们采用完全 serverless 的架构进行搭建,架构中几个重要的服务如下所示:
AWS Glue:亚马逊云科技(AWS)提供的一种完全托管的提取、转换和加载(ETL)服务,旨在简化数据集成任务。它可以自动推理数据格式,并根据源数据和目标数据存储构建 ETL 代码。
Amazon Bedrock:一项完全托管的服务,可提供多种高性能基础模型(FM),以及构建生成式人工智能应用程序所需的一系列广泛功能,通过符合安全性和隐私性的负责任人工智能简化开发成本。
Amazon Athena:是一种交互式查询服务,让您能够轻松使用标准 SQL 直接分析 Amazon Simple Storage Service(Amazon S3)中的数据。只需在 AWS Management Console 中执行几项操作,即可将 Athena 指向 Amazon S3 中存储的数据,并开始使用标准 SQL 运行临时查询,然后在几秒钟内获得结果。
LangChain Summarize
LangChain 提供了多种文本总结的方法,其中 refiner 是一种较为先进的迭代式总结技术。以下是对 LangChain 总结方法的介绍:
- 基础总结:使用简单的提示模板和语言模型生成摘要。
- Map-reduce:将长文本分割成小块,分别总结后再合并。适用于较长文档。
- Stuff:将所有文本直接输入模型,适合短文本。
- Refiner:这是一种迭代式的总结方法,特别适合处理长文档。其工作流程如下:
- 首先对文档的初始部分生成一个摘要。
- 然后将这个初始摘要与下一部分文本一起输入模型,生成更新的摘要。
- 重复这个过程,不断”提炼”摘要,直到处理完整个文档。
Refiner 方法的优势在于:
- 可以处理非常长的文档,克服了模型输入长度限制。
- 通过迭代提炼,保证了摘要的连贯性和全面性。
- 能够捕捉文档中的关键信息,并在最终摘要中保留。
使用 refiner 方法时,可以通过调整每次迭代的文本长度、迭代次数等参数来优化性能,本文即采用 Refiner Chain 来实现 Discord 信息的总结功能。
Discord.py
Discord.py 是一个强大的 Python 库,专为开发 Discord 机器人而设计。它提供了与 Discord API 交互的简便方法,允许开发者创建自定义命令、事件监听器和自动化任务。
Discrod Bot 配置
创建Application,本文参考 https://discordpy.readthedocs.io/en/stable/discord.html
登陆至 https://discord.com/developers/applications,创建Application
添加 Bot 名称
创建完毕后,点击 Bot→Reset Token
配置 OAuth2 权限后加入到 Discord Channel
拷贝至浏览器,邀请 Bot 至相关频道就行了。
方案部署
整套解决方案使用 AWS CDK 进行部署,所以需要在本地具备以下环境。