p2p数据分析

大数据在许多国家具有战略意义,其原因不仅在少数巨头公司的应用,而是大、中、小、微企业乃至个人,都能利用大数据来创造新的价值。而互联网本身就是一个大数据的金矿,利用它创造价值,是时代提供给我们的机遇。


时下互联网金融盛行,人们从p2p网贷中攫取收益的同时,也留下各种操作的记录(如标的明细,投标明细,评论,黑名单,各种论坛帖子等等)。通过网络爬虫技术,我们可以将这些信息采集整理,通过综合分析客观揭示网贷(公司)发展的轨迹,发现它的风险和问题,让网贷变得更加透明化,帮助平台控制风险,帮助投资人规避风险,促进网贷的健康发展。


我们能够收集的信息包括但不局限于如下方面(标的信息:金额、期限、利率、还款方式、奖励、满标时间、借款人资质信息等;投标信息:投标人、投标时间、投标金额等)


根据标的信息,我们可以测算出每笔贷款的还款时间和金额,并通过可视化的手段,初步做出如下的分析


1.网贷成交统计图


图一为一个典型案例,柱状图为表示平台的单笔借款(横轴为借款发标时间,纵轴为借款金额,发标时间太近会重叠在一起)。红色曲线为平台的累计借款金额(当日及之前的所有借款金额累加和)。我们可以发现,除少数借款标的外,平台控制单笔借款在100万元内,累计成交表现为缓慢加速增长的趋势(曲线的斜率在逐渐增加),显示网站的业务额在逐月增大。

图一、网贷成交统计图


2.待收金额及累计收支图


图二为同一家网贷平台的待收金额及累计收支图。其中蓝色柱状图部分与图一相同,黑色柱状图为预期收回金额(假设每一笔借款都按时按量返还,不存在坏账)。红色曲线为平台的累计收支(贷出的总金额-预期收回的总金额),而绿色曲线为平台待收曲线(未来要收回的贷款总金额)。我们可以看出,a位置显示网贷公司的业务在减少(可能由于农历新年导致营业时间减少,引起业务量下降。这需要与其它网贷平台的数据做比较验证),而紧接着平台的业务量开始暴增(b位置),这其中可能是因为行业周期所致,也可能是因为平台大量的投入,或者是平台降低了信审的标准(提高了风险)。


我们现在处于图二中红色曲线顶点的位置,我们可以看到,在未来的十几天里,平台的待收曲线是急剧降低的,这意味着平台有大量的资金需要收回(由于未来的每一天的待收是以当前的数据来测算的,并没有计算未来的借款标的,所以在Δt时间内绿色曲线的落差ΔM即为在Δt时间内平台要收回的还款总金额)。这时候平台的风险是很大的,因为平台需要把收回的资金及时返还给投资人,如果平台不能及时收回贷款(发生的概率可能较大),平台又无力垫付资金的时候,投资人的集中提现就会导致挤兑行为,平台提现产生困难甚至平台倒闭,投资人就可能血本无归。


图二曲线的计算方法:


待收曲线:
1.针对特定的某一天(用t表示),计算t当天及之前的所有的借款对应的还款(什么时间还多少钱);
2.将尚未发生的还款(时间大于t)的金额累加,即为t的待收金额;
3.将每一天的待收金额按照以上的方法计算出来,绘成曲线,即为图二中的绿色曲线。


平台累计收支曲线:
1.针对特定的日期t,计算t当天及之前的所有的借款及借款对应的理论还款(借款为正,还款为负);
2.将发生在t当天及之前的所有的借款和还款的金额累加起来,即为日期t的平台累计收支;
3.将每一天的平台累计收支按照以上的方法计算出来,绘成曲线,即为图二中的红色曲线。

图 二、待收及累计收支图


我们将图二b区域对应的时间段内的新增贷款中,每种期限标的的金额和占比做成饼状图(图三),我们发现其中50.6%的借款为期限二月内的借款标。75.8%的借款为三个月内的借款标。由于这些都是要在近期内偿还给理财人的,所以造成近期内贷款回收的压力很大。

图三、不同期限的标的的金额及占比


事实上在**贷的案例中(图四所示),我们就发现它的待收曲线在数据采集日(蓝色柱状图的最后一天)之后急剧下降,结果果然发生了提现困难,平台马上处于要倒闭的风头浪尖。

图四、**贷待收及累计收支图
3.日均利率及成交变化图


日均利率考量的是网贷平台的利率变化,它的计算公式为:

其中, 为日均利率, 为一天中第笔借款的金额, 为第笔借款的期限, 为第笔借款的利率。即,日均利率为一天内每笔借款利率以借款周期和金额的乘积为权重的加权平均值。


我们把日均利率和成交随时间的变化可视化出来(图五为**贷的案例)。我们发现平台在13年11月份前后利率暴涨到35%到40%(经过核查,该段时间内平台标的奖励非常高,最高到17.8%),这为它积攒了大量的人气,但平台的成交处在一个低水平(对照图四),造成平台的火爆人气,然后紧接着放量并降低利率。

图五、利率及成交变化图


4.平台借款人分析图



平台借款人分析图为我们展示了每个借款人的累计借款金额(图六),通过这张图我们能对平台的用户群做一个初步的分析。同时我们还可以根据借款用户的其它属性进行分析,此处略去。



图六中的横轴为每一个借款人,由于它们的名字在这里没有足够的空间显示,我们把他们按照借款的金额大小进行排序,以序号为横轴坐标,纵轴为借款金额。红色曲线为前面几位借款人的累计借款金额(如5即表示前5位借款人的借款之和)。我们可以看到,平台近6亿的借款资金主要借给了20位借款人,集中度高。这个时候,如果其中某一位借款人不能按时还款,就会造成很大的待收风险。

图六、平台借款人分析图


5.今日待收组成分析图


当我们评估平台的风险的时候,我们需要检查平台待收的组成,看都是哪些人欠款,这些借款标的是否有抵押等。我们把平台当前每个借款人的待收金额都计算出来,按照金额大小排序,展示在图七中。与图六类似的,前多少位借款人的累计借款金额以曲线作为展示。


我们可以据此找出欠款多的借款人,查看这些借款人的借款历史记录,分析其中的风险。

图七、今日待收组成分析




同时,我们把待收的金额按照标的类型进行。我们发现,其中大部分的为流转标,即债权人在债券到期之前,转让给他人。这表明了一半以上的债权的所有人对平台能到齐按时还款的不信任。




图八、标的类型分析



6.借款行为分析图


我们把单个借款人的借款行为和对应出的理论还款行为做成图,称为借款行为分析图。以图九为例,蓝色柱状图为借款行为(横轴为借款日期,纵轴为借款金额,借入为正),黑色柱状图为测算出的还款事件(纵轴还款为负),绿色曲线为累计借款(日期之前的所有借款金额之和),红色曲线为累计净资金流(日期之前的所有借入金额与还款金额的差值)。因为借还款的事件都是突发性的,所以这些曲线是折线而不是平滑的曲线(图九.a)。图九.b位置的折线,表示贷款人还掉一笔。而图九.c的位置中,表示他又从平台借出了一笔。那么图九.d就好理解了,在还款日,他又借了钱,保持总净借款金额基本不变。即,他很可能靠借的新债换掉了旧债(“借新还旧”)。这点特征跟庞氏骗局是非常像的。我们看到,这个借款人从2013年年初到现在,一直是借新债还旧债的。如果哪一天,他借不到钱了,又没有足够的钱还债,那么风险就来了。当然,这也可能是将长期标拆成短期的拆标行为,但这会引入同样的风险。

图九、借款行为分析图


我们设计了算法,可以自动检测一个人的借还款行为中,哪些是“借新还旧”的。例如图十中,黄色矩形所圈着的,就是检测出的借新还旧的行为。我们将某一家网贷公司的所有借新还旧的还款金额(约3.6亿)和用户自己还的还款金额都累加起来(约3.4亿),发现他有超过一半的还款都是靠借新还旧这种方式来实现的。而在共570名借款人中,有160名都存在这种借新还旧的行为。

图十、借新还旧行为检测

7.理财行为分析图



与借贷行为图类似,理财行为图展示了理财人的整个理财行为,以图十一为例,理财的资金为正(蓝色的柱状图),回款行为为负(黑色的柱状图)。累计平台出入资金为投进平台的资金和收回的资金的差额。


图十一中这个理财人前期投入的资金较多,然后资金发生了抽离,后来又增加了。这样的借款人有多次的持续的投资行为,属于平台比较稳定的资金来源。而图十二所示的用户,短期内投入60来万,然后又直接提现走人,这样的用户对平台的资金流就会带来一定的冲击。我们将一个平台的所有投资人的行为进行聚类,看看稳定的投资人有多少,冲击型的有多少,对我们分析网贷平台的资金流风险是很帮助的。

图十一、理财行为图

图十二、理财行为图



除以上的分析外,我们还在寻找更多的指标来衡量一个平台的风险程度,以求建立一个网贷大数据分析的体系。同时,更多的数据让我们可以开展网贷数据挖掘,对比平台之间的模式区别,挖掘倒闭平台的倒闭原因,预测指标的变化和发展。我们在这个方面希望能与更多的单位和个人开展合作,共同促进网贷的透明化、阳光化。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值