本次将利用MySQL对在某网站爬取的网贷平台数据进行分析:
一、提出问题
1、在网贷平台所在背景分析?
2、哪些网贷平台出现问题用户需要慎重选择?
3、9月份哪些平台用户值得一看?
二、理解数据
本次数据分析使用3个表进行分析,如下图:
从上图可以看出表“问题平台数据”有记录数4737条,表"网贷数据"记录数682条,表"9月网贷平台评级"有50条。各表具体内容如下:9月网贷平台评级表网贷数据表“问题平台数据”表
从上表可以看出有的列中的数据有些冗余和空值不是一目了然,接下来为方便分析就要进行一些处理。
三、数据清洗
1、不要对原表直接进行操作,复制一份在新表上进行分析
2、对多余无用的字段值及空格进行处理
3、对重复数据进行处理
判断数据是否有重复值
去重数据后记录跟原记录数一致,则该表可判断无重复值。
4、缺失值处理
查看结果后发现“问题平台数据”表“出问题原因”列与其他列不一致,存在缺失值
查找出31条缺失值,接下来进行删除:
删除后剩下4706条记录。同理处理其他表的数据
四、构建模型
1、在网贷平台所在背景分析?
从清洗后的569条网贷平台数据表进行建模可以看出目前民营系、国资系还是主流。
2、哪些网贷平台出现问题用户需要慎重选择?
现有的569个网贷平台中就存在147个平台出现了一些问题,例如提现困难、暂停运营等问题。当我们进行投资时就不要盲从要先了解下这个平台有没有什么问题再做决定。
3、9月份哪些平台用户值得一看?
9月份排名前50名网贷平台中有23个平台没出现过问题,可从这23个平台中进行投资考虑,其中前三名为陆金所,参考利率8.3%;小赢网金,参考利率7.8%;麻袋财富,参考利率1.6%。这些平台都是具有一定可信度及保障的。