本文作者:
熊贇,张尧,陈佳伟
复旦大学计算机科学技术学院,上海市数据科学重点实验室
徐广斌
上海证券交易所资本市场研究所
一、引言
随着证券市场实时监察系统的上线及广泛应用,证券市场一线监管的效率和性能都得到了大幅的提升。近年来,大数据技术的引入已经在证券市场监管中显现效果。但是,一方面,传统监管方法主要依赖专家经验,即基于业务专家的规则,这需要花费业务专家大量时间,影响了监管的效率和灵活性;另一方面,证券市场涉及的交易数据量大、交易账户多,投资者交易行为实时变化且复杂多样,现有方法对大数据的利用不充分,深层次的有价值的信息可能被忽略,导致难以实现对投资者深度、全面的画像,需要分析人员进一步分析整理。深度学习利用深度人工神经网络来学习数据的多层次抽象表示,能够针对具有高维度、时间敏感、关联性等特点的数据进行建模,给投资者行为分析带来新的解决思路,在图像、音视频、自然语言处理等领域得到了广泛的应用,在模式识别等领域也得到了高度关注。本文基于作者之前提出的基于深度学习的行为特征分析的IGE(Interaction Graph Embedding)算法[1],针对证券交易行为数据增量的需求和复杂特点,设计投资者画像生成与分析框架(以下简称“投资者画像框架”)。经应用分析,投资者画像框架能够有效构建投资者画像模板库,实现投资者快速识别与分类等目的,为证券市场监管提供方法支撑。本文认为基于深度学习的投资者画像模型应用于投资者识别和行为分析领域具有诸多潜在优势,可结合更多业务场景继续探索和完善。
二、投资者画像框架
投资者画像框架可以实现由原始数据经过转换得到投资者的深度特征,构建投资者的画像模版,在实际应用中实现投资者的分类以及其他可能的对投资者的监管。该方法的核心是DL4Profiling模型,具体介绍详见第三节。
(一)全景深度分析
传统的特征提取由于仅对原始数据进行简单的变化,无法充分捕捉信息中更复杂、抽象的概念。针对证券交易数据的高维度、时间敏感、动态性、复杂关联等特点,本投资者画像框架通过深度学习的方法,对投资者交易行为数据特征进行高度抽象的提取,学习数据的多层次抽象表示。该框架输入的是投资者的交易行为数据,输出的是投资者的深度画像,并可基于投资者的深度画像根据应用需求采用分析模型,如本文所采用的无监督/半监督聚类、分类模型对游资账户进行识别、划分等,进行进一步的投资者分析,如图1所示。
图1 投资者交易数据深度分析
(二)快速、可扩展性
投资者画像框架,可分为投资者画像生成模型和分析模型两部分。生成模型采用归纳式的学习方法,利用预测编码与生成网络,能直接从历史交易数据生成投资者画像。针对特定业务场景,分析模型采用无监督聚类/半监督分类的方法在对投资者画像进行应用,实现从交易数据特征表示到无监督聚类/半监督分类结果的自动化投资者分析。相关分析流程如图2所示。
图2 投资者分析框架流程图
投资者画像框架在基于历史数据训练完成后,对于新增交易数据,转化后的数据即可通过已训练好的画像生成模型,直接得到投资者深度画像。从新数据生成的投资者深度画像可结合历史数据训练得到的投资者画像,通过半监督学习方式,实现对投资者的分类,具有快速性和可扩展性的特点。
(三)具有可理解性和分析优势
本文将常见的特征提取方法归为两类——人工特征提取和深度学习特征提取,并与本文使用的投资者画像模型进行比较。这三类方法在信息涵盖、业务知识依赖、可理解性和后续分析方面各有优劣。
表1 各类特征提取方法比较[2]
信息涵盖 |
业务知识依赖 |
可理解性 |
后续分析 |
|
人工特征提取 |
☆ |
☆ |
☆☆☆ |
☆☆ |
深度学习特征提取 |
☆☆☆ |
☆☆☆ |
☆ |
☆ |
投资者画像模型 |
☆☆☆ |
☆☆☆ |
☆☆ |
☆☆☆ |
人工特征提取,是指由专业人员对数据进行分析并人为处理提取,得到合适的特征值,是一种传统的特征抽取方法