RapidMiner系列:Affinity-Based Marketing(亲和营销基础)

介绍

银行提供一种新的金融产品:确定的费用和有趣的利率。当这种产品被投放市场,有的人会查看这种新的产品,大多数人是不会查看的。银行的市场部门为了提高业绩想发送这种新产品的邮件给没有查看这个产品的用户。但是不必在那些不会买这个产品的用户群浪费精力,他们想只关注对该产品有较高的喜爱度的20%的用户群。
一种简单的方法: Cross-Industry Standard Process for data mining(CRISP-DM,跨行业数据挖掘标准流程)。数据是根据真实世界数据所构造的假想数据。
假定那些已经买过该产品的用户作为对该产品有比较高的亲和力的人群代表。因此我们寻找还没有买过该产品但是和已经买过该产品的用户相似的用户。相似度越高,越容易购买。

主要挑战是明确客户属性能够帮助我们发现用户相似性。假定已经有很好的用户人群,可以使用二分类方法,去分类购买者和非购买者。很多算法可以去给用户排序,排序越高的用户被预测有越高的可信度去购买。

理解业务

CRISP-DM BI的目的是从用户角度去理解:他们使用什么短语,想达成什么目的,怎么评价是否达成目标?

下面一些观点:

  • 银行现在有四种不同的产品CH01到CH04命名,CH04是最新的一类。基本上,每一类都有确定的月费和利息,但是还是有一些用户有不同的利息或免除月费通过成为VIP或其他方式。
  • 每个客户都可以有不同的购买选择
  • 账户有开通和到期时间。当一个账户到期,会出现余额为0的情况。一个账户在到期时间之前叫做活跃的并且一个用户至少有一个活跃的账户也被叫做活跃的
  • 每一个现金交易都被内部文本分析系统自动分析。很多方式:“cash withdrawal”,”salary”,”insurance premium”,或者一些“unknow”方式
  • 大多数的客户,个人信息如生日和家庭信息都是已知的。
  • 客户可以购买许多其他的产品,所以那些数据源是很珍贵的,我们简单的例子并不包含这些数据。

我们可以根据用户的表现,现金交易数据给用户定性。7.4节介绍。还需要排除一些超时的数据。因此,所有购买了CH04产品的活跃用户是购买者,其他的活跃用户是非购买者。

理解数据

当我们完全理解数据结构和内容之后再进行数据分析。
一个数据源与可用信息系统分离并提供一个集成视图,为分析目标而特定生成。
对于数据挖掘师来说,数据仓库被认为是从原始数据到数据分析需要的数据的一个中间过程。
如下面的表,一张交易表是和用户,日期,账户等三张表所关联的
这里写图片描述
分析三张表

  • Dim_Custmers: 用户信息
  • Dim_Accounts: 账户信息
  • Dim_CalendarDates::日期信息
准备数据

两步:第一是从数据仓库收集数据到一个简单的样本集
第二步是执行一些任务去进行数据挖掘

收集数据
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值