20140722 数据挖掘之始

已到七月下旬,再过月余,即将面对社会,找一份期待害怕已久的工作。但是因为在学校呆了那多年,感觉自己什么也没学到,想抓紧最后的一点时间,学习一门技术。

我从来都是个好高骛远、眼高手低的人,心高气傲,做事不够踏实,很想当然,难得花一点时间踏踏实实去做一点事情。在这最后的时间里,我想了好久,要学什么,要做什么,喜欢什么,选了好几个方向,最后想做好多,想学好多,但是这样什么也学不到。因此,我给自己讲,挑一个。最后选了一个和我博士期间看的东西完全无关的一个方向——数据挖掘。

其实我看大致看了一下,这个方向很好,但是要学的要看的东西好多好多,我大致翻看了一下,这么点时间,我要学也学不好,但是,学多少,算多少,学到哪里算哪里。

我决定从《Mining of Massive Datasets》这本书开始。

数据挖掘,从字面意思来说就是从一堆看似杂乱的数据中发现对我们有意义的事情,可以是对象模型,可以是数据关系等等。但是数据挖掘,首先需要对问题有所理解,明确挖掘的目标,才能选择合适的方法,发掘可靠的需要的信息。数据挖掘利用来自如下一些领域的思想:统计学的抽样、估计和假设检验,人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。同时,数据挖掘也迅速的接纳了来自其他领域的思想,这些领域包括最优化、进化计算、信息论、信号处理、可视化和信息检索。

邦弗朗尼原理(Bonferroni’s Principle)在考察数据时,如果将某些对象视为数据的有趣特征,而这些许多对象都很可能在随机数据中出现,那么这些显著的特征就不可依赖。对于这些实际中不罕见的特征来说,这个结论限制了从这些特征进行数据挖掘的能力。

TF.IDF指标,一种确定文档集中确定关键词排序,用于寻找文档集主题的指标。

哈希函数,将某种数据类型的哈希键映射成整形的桶编号,气能够对任意数据类型进行处理。

索引,在给定一个或多个字段值时进行高效记录存取和检索的的一种数据结构,哈希键是构建索引的一种方式。

磁盘存储,当数据必须存储在磁盘,且当数据很大时,算法应该尽量将所需数据放入内存。

幂定律,很多现象都服从一个可表示成y=cx^a的幂定律,其中a是幂,一个通常的取值是-2.包括商品销量、web网络图中节点的度、web网站大小等都服从幂定律,即服从小世界网络的scale-free特征。


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值