数据挖掘
郑家小组
这个作者很懒,什么都没留下…
展开
-
分析数据获得:新浪微博兴趣圈自动挖掘
【IT168 技术】一.为何要在大规模SNS中挖掘兴趣圈子 随着国外的facebook、twitter以及 国内的人人、新浪微博等SNS及内容分享平台的逐步流行,如何从上亿的海量用户中自动挖掘兴趣圈子成为了一个有趣也非常必要的工作。所谓“兴趣圈子”,指 的是在同一分享平台下,有着共同的兴趣爱好的用户群体,比如新浪微博里哪些用户是对云计算感兴趣的?他们是否形成了一个密切交互的圈子?对这些信转载 2013-01-05 14:09:49 · 1887 阅读 · 0 评论 -
基于hadoop的海量数据挖掘的开源解决方案
一套基于hadoop的海量数据挖掘的开源解决方案. BI系统:Pentahopentaho是开源的BI系统中做得算顶尖的了.提供的核心功能如下: 报表功能: 可视化(client, web)的报表设计. 分析功能: 可以生成分析视图,作数据作动态分析. Dashboard功能: 可以定制动态图表(image/flash)页面. 调度功能:转载 2013-01-05 08:57:20 · 7590 阅读 · 0 评论 -
数据挖掘分类技术
1、过分拟合问题: 造成原因有:(1)噪声造成的过分拟合(因为它拟合了误标记的训练记录,导致了对检验集中记录的误分类);(2)根据少量训练记录做出分类决策的模型也容易受过分拟合的影响。(由于训练数据缺乏具有代表性的样本,在没有多少训练记录的情况下,学习算法仍然继续细化模型就会产生这样的模型,当决策树的叶节点没有足够的代表性样本时,很可能做出错误的预测)(3)多重比较也可能会导致过分转载 2013-01-05 14:04:41 · 10197 阅读 · 0 评论 -
数据密集、计算密集、IO密集,hadoop如何应对?
I/O bound(I/O密集型)I/O bound 指的是系统的CPU效能相对硬盘/内存的效能要好很多,此时,系统运作,大部分的状况是 CPU 在等 I/O (硬盘/内存) 的读/写,此时 CPU Loading 不高。计算密集型 (CPU-bound) 也有人认为是Compute-IntensiveCPU bound 指的是系统的 硬盘/内存 效能 相对 CPU 的原创 2013-01-06 16:08:15 · 12927 阅读 · 0 评论 -
Mapreduce常见数据挖掘算法集收集
1. Map/Reduce方式实现矩阵相乘http://www.norstad.org/matrix-multiply/index.html2. Map/Reduce方式实现PageRank算法http://blog.ring.idv.tw/comment.ser?i=369http://code.google.com/p/map-reduce-assign原创 2013-01-07 10:54:51 · 5888 阅读 · 0 评论