数据挖掘:属性

数据对数据挖掘是至关重要的,只有充分认识数据才能选择合适的挖掘方法,进而得到不错的挖掘效果。
1、属性与度量[详细内容参考《introduction to data mining》]
属性是对象的特性,它因对象而异,或随时间而变化。测量标度是将数值与符号值与对象属性相关联的规则。属性与属性值是不一样的,例如用户的ID属性用整数表示,ID属性是没有加减操作的,而ID属性值是可以加减的,但这种操作是没有意义的。例如user1的ID1=1,user2的ID2=2,ID1+ID2=3是没意义的。
属性可以分为四类:标称、序数、区间和比率。如下图所示:
这里写图片描述
其中上图“描述”列中的符号说明如下图:
这里写图片描述
属性是可以变换的,Smith Stevens定义了属性的层次变换,如下图所示:

这里写图片描述
2、属性序列
在数据集S中,有每个用户七天活跃记录:a1,a2,a3,a4,a5,a6,a7。如果用户第i天活跃则ai=1,否则ai=0.任务是根据这七天的用户活跃记录预测用户第八天是否活跃。可以看出特征就是七个字段,每个字段是0或1.但是从问题描述中这七个字段可能隐藏了如下信息:

(1)这七个字段是具有时效性的。用户第七天是否活跃比用户第一天是否活跃对预测更重要。
(2)这七个字段具有连续性。具有模式(a5=1,a6=1,a7=1)的用户比具有模式(a5=0,a6=0,a7=1)的用户在第八天活跃的可能性更大。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值