当前加密货币交易分析方法依赖不透明的黑箱模型,缺乏可解释性和适应性,无法有效捕捉行为模式。
LLMs可用于分析加密货币交易,识别非法活动,增强网络犯罪检测。LLMs在图数据分析中的应用面临挑战,尤其是比特币交易图的结构差异。
本文提出LLM4TG图表示格式,减少冗余数据,支持LLMs处理。设计了连接增强交易图采样算法(CETraS),优化中型交易图的节点重要性。
实验结果显示基础指标准确性令人满意,概述特征获取有效,分类任务中前3准确率稳固。
摘要
当前加密货币交易分析方法依赖不透明的黑箱模型,缺乏可解释性和适应性,无法有效捕捉行为模式。大型语言模型(LLMs)被认为能够弥补这一缺口,因其在复杂任务中的推理能力。本文在比特币网络的真实交易图上测试LLMs,提出三层框架评估其能力:基础指标、特征概述和上下文解释。引入人类可读的图表示格式LLM4TG和连接增强采样算法CETraS,以简化大型交易图。实验结果表明,LLMs在基础指标上表现优异,提供详细的特征概述,并能有效解释交易行为,即使在标记数据有限的情况下。
简介
大型语言模型(LLMs)在自然语言处理、计算机视觉等领域提升了生产力,并影响了社会经济领域,尤其是加密货币生态系统。加密货币的去中心化和伪匿名特性带来了诈骗和洗钱风险,现有分析方法缺乏可解释性和适应性。
LLMs可用于分析加密货币交易,识别非法活动,增强网络犯罪检测。LLMs在图数据分析中的应用面临挑战,尤其是比特币交易图的结构差异。研究问题包括:有效的图表示格式、LLMs理解比特币交易图的能力测量、工程化图特征与原始图数据的关键差异。
本文提出LLM4TG图表示格式,减少冗余数据,支持LLMs处理。设计了连接增强交易图采样算法(CETraS),优化中型交易图的节点重要性。通过两个比特币数据集和三种主流模型评估LLMs在实际交易分析中的能力,提供定量和定性分析。
预备知识
加密货币交易图表示区块链网络中数字货币的流动,节点代表交易或钱包地址,边表示转账,适用于用户行为分析、识别欺诈和洗钱模式。大型语言模型(LLMs)如GPT系列擅长生成连贯文本,能够处理结构化数据(如图形),通过将数据转换为类似自然语言的格式进行复杂分析。
本文关注三种主流LLM模型:GPT-3.5(16K token限制)、GPT-4(128K token限制)和GPT-4o(效率提升,token限制同GPT-4)。LLM中的token是处理文本的最小单位,token限制对分析大型交易图构成挑战,可能导致上下文丢失。为克服token限制,研究者采用数据压缩、选择性采样、自定义token化和迭代处理等策略。
方法
概述
本文构建比特币交易图,利用历史链上数据。提取相关子图和图特征,并为比特币地址标注标签。将原始图(格式为LLM4TG)和图特征输入LLM,依据不同任务使用适当提示。
LLM4TG
LLM4TG是一种新格式,旨在优化交易图的分析,具有文本基础和人类可读性,减少语法噪声和冗余,降低令牌使用,同时保持数据完整性。该格式将节点信息和边缘细节整合在节点内,按地址或交易类型分层组织节点,保持图的结构完整性。每层节点根据属性(如度和代币数量)进行分类,简化分析并提高可读性。
LLM4TG的三大优势:1) 按类型分层组织节点;2) 高效利用LLM的令牌预算;3) 提高图数据的可解释性。与其他格式比较,LLM4TG在不同图大小下令牌消耗逐渐增加,始终保持在GPT-4/4o令牌限制内,尤其适合较大图。
CETraS
CETraS是一种用于压缩中型交易图的方法,旨在保持重要结构以支持少量学习任务。节点重要性由多个因素计算,包括输入/输出金额、入/出度和到特定节点的最短距离。
CETraS优先删除重要性低的节点,并保留连接路径,以维护图的连通性。该方法专注于传达与交易相关的信息,适用于包含数千节点的中型图,而非大规模图。
评估和分析
准备
**数据集:**使用BASD和BABD两个数据集,涵盖2019年7月12日至2021年5月26日的22个月的比特币交易图。
- **BASD:**包含八种类型的子图,最大五跳和3000个节点,从标记的比特币地址生成。
- **BABD:**包含标记的比特币地址,每个地址关联148个特征。
**LLM选择:**选择GPT-3.5、GPT-4和GPT4o,因其处理大输入的能力和优越性能,通过API访问。
**提示工程:**采用少量示例的few-shot prompting与LLM互动。
**实验设置:**将原始交易图格式化为LLM4TG,使用CETraS进行特征分类,GPT-3.5仅在特征分类的第三级使用。实验在BASD数据集子集上进行,包含对应的BABD地址数据。
第1级-基本指标
实验选取50个交易图,每个图包含10个节点,设计12个指标从响应、全局和节点三个角度评估LLMs的表现。
**响应指标:**使用struct_correctness评估LLMs的响应结构正确性。
全局指标:评估LLMs对交易图整体基本指标的理解,包括最大入/出度、最大入/出值和入出值/度差异最大节点。
**节点指标:**评估LLMs对具体节点信息的理解,包括节点的入/出度、入/出值和特殊信息(如时间间隔或特定节点存在性)。
**结果显示:**LLMs在节点指标上表现优异(98.50%-100%),但在全局指标上准确率显著下降(24%-58%),尤其是差异相关指标(24%-34%)较低,表明LLMs在计算和比较能力上有限。不同LLMs(如GPT-4和GPT4o)在响应指标和全局入/出值上表现差异,表明模型更新提升了响应格式质量和部分全局指标的效果,但整体仍存在理解基本信息的缺陷。
**结论:**LLMs在获取比特币交易图的特定节点信息上表现优秀,但在数据计算和比较方面表现一般。
第2级-特征概述
研究LLMs的能力,通过询问子图的两个最显著特征进行评估。随机选择16个子图作为知识输入,并结合40个子图进行LLMs的输入。移除子图中的标签以避免影响输出。
LLMs的响应质量分为高、中、低三个等级:
- **高质量:**无无效、错误或不准确信息。
- **中质量:**包含无效或不准确但无错误信息。
- **低质量:**包含错误信息。
无效响应虽准确但无用,其他有效响应可用于分析。
GPT-4的高质量、平均质量和低质量案例比例分别为62.50%、26.25%(不准确和无效分别为7.50%和18.75%)和11.25%;GPT-4o的比例为82.50%、13.75%(不准确和无效分别为12.50%和1.25%)和3.75%。GPT-4和GPT-4o的有意义响应比例为70.00%和95.00%。
选取了两个示例(bc1qah 1和bc1q4w 2)以展示各类别。对于bc1qah,GPT-4的回答质量一般,GPT-4o的回答质量高,准确描述了节点的高入度和出度,并揭示了高交易值。对于bc1q4w,GPT-4的回答质量高或一般,GPT-4o的回答质量高,准确且有意义,强调了交易节点的高出度。
**总体发现:**尽管存在一些不准确的回答,LLMs在交易分析中提取了许多有益特征,GPT-4和GPT-4o的特征识别能力分别达到70%和95%,显示出其在比特币交易图特征识别中的实用性。
第三级-语境解读
实验评估模型的上下文解释能力,分为图特征分类和原始图分类,采用少量样本提示策略。
图特征分类中,使用每类五个标记子图和500个随机未标记子图,LLMs的整体准确率为39.83%至46.07%。GPT-4和GPT-4o在矿池分类中表现优异,分别达到80.00%和95.00%精度,且在暗网市场的召回率也很高。GPT-4o在图特征分类中表现稳定。
原始图分类中,GPT-4o的准确率为50.49%,显著高于GPT-4,且在大多数特定类别中表现更佳。在极少参考样本的情况下,基于图特征的LLMs优于SVM和MLP,但不及决策树、随机森林等模型;基于原始图的LLMs表现略优于SVM和MLP。
GPT-4o在使用原始图形数据时,准确性显著高于其他使用图特征的LLM,接近决策树(DT)、随机森林(RF)、CatBoost和图神经网络(GNN),尤其在精确度上表现突出,适用于非法地址检测。LLM的分类结果可提供详细解释,但初步调查显示这些解释并不总是准确。
LLM在上下文理解方面表现强劲,尽管准确性中等,仍有改进空间。
讨论
- **RQ1回答:**提出LLM4TG格式,结合CETraS显著提升任务可行性,支持多层次实验。
- **RQ2回答:**建立三层框架以理解交易图,实验验证框架有效性,增强LLMs分析能力。
- **RQ3回答:**工程化图特征分析简化复杂性,原始图数据分析提供更深刻但更具挑战性的见解,GPT-4o在原始数据上表现优于其他LLMs。
**图格式的Token消耗:**研究GEXF、GML和GraphML格式的Token消耗,发现随着节点增加,Token消耗显著增加,超出GPT-4/4o的Token限制,表明这些格式不足以支持交易图分析。
LLMs在交易图分析中的优势:
- **高准确性:**使用最少数据实现高准确率,尤其在分析复杂交易时。
- **上下文辅助:**LLMs提供更具上下文的解释,揭示用户行为背后的动机。
- **图理解:**有效提取节点信息,识别复杂模式和关系。
**应用LLMs的挑战:**Token限制影响大规模交易图的分析,导致缺乏足够的上下文信息。参考图选择影响分类结果,样本数量受限于token限制,影响模型泛化能力。提高LLM生成解释的准确性困难,需开发严格方法以增强分析能力,促进加密交易分析的可解释性和有效性。
LLM性能受模型和输入数据影响:
- **模型瓶颈:**更新优化虽有提升,但对交易图理解的根本问题未能解决,需更多标记样本和丰富特征集。
- **图复杂性/大小:**小图表现更佳,大图可能降低效果,使用相同数据时准确率差异约5%。
- **数据表示与特征:**图特征数据在LLM token消耗上更高效,增加特征和标签可提升分类效果。
总结
本文评估LLMs在比特币交易图分析中的能力。引入三层框架和两项创新:LLM4TG格式提升可读性和减少图形大小;CETraS算法优化图形简化。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。