大数据探讨

今天和各位同事在讨论到R语言的使用。我觉得有几个观点是可以分享的
1,R语言使用是业务人员使用,业务人员根据业务需要,对数据的理解来建模,分析并且做出数据挖掘的结果。没有业务理解,只靠单纯的技术是很难做相关的数据挖掘。而技术人员在R语言上的使用,主要负责环境的搭建,效能的提升,后台数据的处理等。
2,R语言与ETL等中间计算的区别:ETL等中间计算是对已知的加工逻辑的数据处理,复杂的计算过程先行实现。而R语言等数据挖掘工具则是对未知的环境的尝试。在时效性前提下,数据挖掘工具无法做到全部逻辑的快速计算,如果一个数据挖掘需要1天乃至更长的时间才能实现,则要考虑先对处理的数据进行中间加工,来达到数据挖掘的快速反应。两者在很大一部来说是相辅相成。
3,R语言与Excel的比较.Excel是作为小数据量的数据分析,通过透视图,汇总,过滤等功能来实现数据分析统计。由于Excel是单机版(十万级以下),受限于单击环境的影响,没办法对大数据处理进行快速实现。而R语言(百万级以上)则可以在相对多的数据量中进行数据挖掘。
4,R语言等数据挖掘工具无法做到十分精确,但是可以做到一个数据量的精确已经很好,通过数据挖掘可以得到一个大概率的事件。
5,R语言的使用,需要对数据进行建模。首先根据小数据进行试探,查找出相关的影响较大的属性。再对这些属性进行划分建模。根据这些模型进行试跑小批量数据,初步得出一个结论。在按照结论进行第二批小批量数据中进行验证。再拿这个结论在整个数据量中验证。最终推到出适用于未来的数据发展趋势的结论。
6,数据挖掘出来的结论适合PDCA的方法,所有的结论,都需要通过实践来检验。在实践经验过程中进一步验证这个结论,并分析出数据模型对结论的影响,调整模型并进一步细化结论。这样可以挖掘出更有用的知识。
7,决策分析不仅是靠数据挖掘的结论,还需要用发展的眼光去看。如购物网站推荐产品,不仅是过去挖掘到的商业结论推销,更可以按照不同年龄段进行商品的趋势分析。根据你的购物历史,幼儿奶粉是你每两个月必须的商品,但是幼儿不断成长,1岁是第一阶段的,而过了1年,你的推荐商品就应该为第二阶段的。其它相关联的商品也是同样道理。
8,数据挖掘需要注重数据质量和标准。现在数据是爆炸式的,同个数据可能存储多个地方,但是需要考虑数据质量,效率等因素。数据原则上使用最佳加工后的。但是加工后的数据需要一定的标准和说明。并且需要验证数据质量。数据质量不好的,就不可能得到正确的结论。
9,数据挖掘产品,现在很多大公司有做相关的产品,我们可以做相关产品的服务和实施,利用其它大公司的产品,结合自身的业务经验和专业知识来实现数据挖掘实现落地。选择数据挖掘产品,可以考虑最优的合适产品方案,而不是最贵最流行的。  
以上是个人看法,有不同意见欢迎来拍砖探讨。

张小军  厦门
2014-12-4
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值