数据挖掘
HE-EH
这个作者很懒,什么都没留下…
展开
-
用户画像数据建模方法
转载:从1991年Tim Berners-Lee发明了万维网(World Wide Web)开始,到20年后2011年,互联网真正走向了一个新的里程碑,进入了“大数据时代”。经历了12、13两年热炒之后,人们逐渐冷静下来,更加聚焦于如何利用大数据挖掘潜在的商业价值,如何在企业中实实在在的应用大数据技术。伴随着大数据应用的讨论、创新,个性化技术成为了一个重要落地点。相比传统的线下会员管理、问转载 2014-11-11 10:18:36 · 865 阅读 · 0 评论 -
推断基本规则
数据集:也许只有一个属性承担了所有工作,其它的都是无关或者冗余的属性。它适应于类目属性、缺省值和数值属性。方法:1规则(1-rule,1R),是一个能从实例集里方便的找到非常简单的分类规则方法。特点:它产生一层的决策树,用一个规则集的形式表示,只在某个特定的属性上进行测试。想法:建立一个只对单个属性进行测试的规则,并应用于不同的分支,每个分支对应一个不同的属性值,分支的类就是训练数据在原创 2014-10-14 14:20:38 · 456 阅读 · 0 评论 -
关联规则基本方法
数据集:属性之间有依赖性的数据集方法:针对每个可能出现在规则右边的表达式执行一个分治的规则归纳过程。特点:能够预测任何属性而不仅仅是类,同时也能预测属性的组合。想法:根据原始数据产生达到指定最小覆盖量(或者支持度)的项集,然后从每一个项集中找出能够达到最小准确率(或者置信度)的规则。样本数据:以天气数据为例,如下:outlook(Attribute)原创 2014-10-15 13:06:12 · 1477 阅读 · 0 评论 -
统计建模基本方法
数据集:所有属性独立的、均等的对最终结果做出贡献。(这是不现实的,现实的数据集属性并不同等重要,也不彼此独立。只是通过假设,引出一个简单的方案,并在实际中表现极佳。)方法:朴素贝叶斯方法。特点:基于贝叶斯规则并“朴素”的假设属性独立。只有当事件彼此独立时,概率的相乘才是有效的。想法:使用属性值和类别值共现的次数,假设 每个属性时同等重要、彼此独立的,来预测新样本的分类。样本数据:以原创 2014-10-14 18:33:53 · 6066 阅读 · 0 评论