R语言学习①2015/4/2

                                               R语言学习

                                                                                                                                   ——R语言与数据挖掘

                                             

                                                                                                                                                                                                                                                               @Miss Kiriro

 

Q&A

 

1.什么是数据挖掘

A数据挖掘是应用统计学、机器学习和模式识别等学科的知识,从数据中发现有用的、有效的、未知的并且可以理解的信息的一项技术。

数据挖掘的一项重要特征是数据的维度。随着计算机技术和信息系统的广泛应用,需要探索的数据呈指数增长。这给传统的数据分析学科带来了挑战:必须考虑计算的效率、内存资源的限制、数据库接口等。这使得数据挖掘成为一门高度交叉的学科,它不仅有传统数据分析的任务,也有数据库的工作,高维数据可视化等。

数据研究高级科学家Rachel Schutt将「数据科学家」定义为“计算机科学家、软件工程师和统计学家的混合体”。数据挖掘作为一个学术领域,横跨多个学科,涵盖了统计学、数学、机器学习和数据库等,此外还包括各类专业方向比如从油田电力、海洋生物、历史文本、电子通讯、法律税务等的各个专业领域。注意每一分类都需要相当的行业经验。

 

PS:数据挖掘的深度理解?

 

Dim1:

要明白某一事物的本质,就需要通过另一些近似的事物特性对比来说明。就好像你单独提问什么是男人?很难解释对不对。

所以咱们来举个栗子简单看看:

一.分析报告:

在《大闹天宫》里孙悟空跟二郎神在花果山下大战三百回合,咱们来写一篇文章分析。

·孙悟空有金刚不坏之身火眼金睛筋斗云七十二般变化加上定海神针身法灵活。

·二郎神杨戬有三只眼睛缚妖索哮天犬银袍金甲加上三尖两刃四窍八环刀力量无穷。

·所以在大战开始三百回合的时候不相上下,结果后来二郎神派出天兵天将放火烧花果山让大圣慌了心神被偷袭得手。

·最后二郎神赢了。分析报告完成。

二.统计分析

大圣二战二郎神。这次在二位大战之前做个数理统计来预测结果。

·首先根据历史样本史记记载发现两人在之前的五百年里打过100次,其中孙悟空赢60次。

·然后有记录显示,之前孙悟空和牛魔王战斗的胜率是80%,而杨戬斗牛魔王胜率是70%

·所以可以得出综合预测总体胜率是孙悟空赢面大。

·结论依靠历史记录,使用样本预测总体,根据经验作出假设。统计分析完成。

三.数据挖掘

孙悟空和杨戬终极决战。这次咱们根据两位的详细资料(如家庭出身、教育背景、工作经验、婚育情况等)让计算机做协同过滤关联分析。计算机根据数据清洗建模后发现:

·贫苦出身的孩子一般比皇亲国戚更能吃苦所以功夫底子更好平时训练更扎实。

·战斗经验丰富的斗战胜佛因为平时经常打架擅长利用天时地利环境因素而胜算更大。

·在都得到大师指点的情况下,贫苦出身的孩子可以利用后天的努力来弥补先天悟性的欠缺。

·样貌奇特注定孤独终老的神仙总是会比同等条件下美若天仙喜欢沾花惹草处处留情的神仙功夫好。

综上所述,我们可知道:

·论出身两位大神不分伯仲。一个从石头出来,一个是凡人与神仙结合所生。

·悟空的师父菩提老祖和二郎神的师父玉鼎真人的师父元始天尊同为鸿钧老祖的高徒,所以前者更胜一筹。

·斗战胜佛战斗经验相对于整日逍遥快活无忧无虑的二郎神来说更加丰富。

·另孙行者由于外貌原因始终单身。

所以可以得出结论,这次大战孙悟空赢面大。数据挖掘完成。

四.最后总结

·分析报告一般是整个事件发生结束以后的总结(马后炮)。

·统计分析则能利用大量的历史样本来预测整个事件总体未来的走向(概率)。

·数据挖掘则透过事件的表象发现隐藏在背后的蛛丝马迹,从而找到潜伏的规律及看似无关的事物之间背后的联系

 

Dim2:

数据挖掘,不是简单的把数据呈现出来,而是要挖掘数据之间隐藏着的不知道的关系、信息。

可以用,「数据会说话」来描述。

技术分类:预言:用历史预测未来;描述:了解数据中潜在的规律。

相关技术包括:关联、序列发现、分类、聚集、异常检测、汇总、回归、时间序列分析,可以一个一个学习。

数据挖掘的核心是算法。


....未完待续

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值