使用历史数据进行商业预测,首先我们要知道什么东西是能够被预测的,举几个例子:
-
银行放贷款时,希望预测出当前贷款人是否可能违约?
-
保险公司希望预测出客户的理赔风险,从而更灵活的制定保费,高风险高收费,低风险低收费
-
银行有很多种金融产品,希望预测出哪些用户会购买哪些产品,更精准的进行销售活动
-
工业生产中,企业希望预测设备的运行状态,减少非计划停车
-
商场超市希望预测出产品的销量,可以精准备货,降低库存
-
互联网金融信贷业务,希望预测出借资金的流动情况,合理管理现金流
……
……
如果我们手头有足够多的历史数据,那么这些任务都是可能做到的。比如任务 1,我们可以从过去多年的贷款信息记录中找出某种规律,这些信息包括贷款人的收入水平、负债情况,贷款金额、期限、利率以及贷款人的工作职位、居住条件、交通习惯等等,特别地,必须有过去这笔贷款是否发生过违约的信息。这样,再碰到新的贷款客户,可以根据该客户的各项信息来匹配规律,来确定当前客户违约的可能性有多大。当然,这种预测并不能保证 100% 准确(有很多种办法来评估它的准确率),所以如果只有一例目标(比如只有一笔贷款)需要预测时,那就没有意义了。但通常,我们都会有很多例目标需要预测,这样即使不是每一例都能预测正确,但能保证一定的准确率,这仍然是很有意义的。对于贷款业务,预测出来的高风险客户未必都是真的,但准确率只要足够高,仍然能够有效的防范风险。
用历史数据做预测,一共 3 个步骤:1 准备历史数据→2 从历史数据中找出规律,我们称之为建立模型→3 用建立的模型进行预测。
1. 准备历史数据
历史数据通常是一张我们俗称的宽表。比如下图这样的 Excel 表格:通过用户的一些基本信息来预测其是否会发生违约行为
首先,宽表中一定要包括我们想预测的事情,通常称作预测目标,上图中的预测目标就是历史用户的违约行为,也就是图中 y 那一列,yes