互联网+时代,在金融市场体现得淋漓尽致,本来就活跃的市场如虎添翼,发生爆发式发展。在以银行等金融机构为主体的金融平台不断丰富“吸金”招式,为普通人群开放更简单便捷的投资方式,金融小则100,大则几百万。在此大环境下,不断衍生互联网理财平台,相对银行等大机构有更吸引的回报率。
本文以个人想法,提出理财产品大数据优选方案,从数据来源、数据加工实现、数据模型、实时应用提出观点,通过大数据分析,目标为投资者提供更客观具备高参考值的建议。
一、理财产品数据来源搜罗
数据来源多元化,包括但不限于银行、平台合作基金、互联网P2P金融、信托计划、债券。根据不同平台主体制定爬虫执行计划(Python技术),并格式化为统一机构化文件。
1、摘抄《12家银行理财产品调研》:
调研范围包括:- 五大国有银行:中国银行、农业银行、工商银行、建设银行、交通银行;
- 四家股份制银行:浦发银行、招商银行、兴业银行、平安银行;
- 三家城市商业银行:上海银行、杭州银行和北京银行。
https://www.zhihu.com/question/20803106#answer-6351535
2、搜狗金融
http://jinrong.sogou.com/financial?f=111201&category=0
3、融360
https://www.rong360.com/licai-p2p/pingtai/rating
二、数据加工技术
1、离线加工 :基于统一格式化的文件,上传至HDFS ,使用Mapreduce 技术(可为spark)离线处理分布文件,并储存到HBase数据库。
2、实时处理:使用 Apache Kafka 和 Spark Streaming 模块构建一个实时的数据处理系统。