数据挖掘
susht
Dare To Be Yourself
展开
-
数据挖掘之 时间序列分析
时间序列是指按时间顺序排列的一组数据,这些数据有两个特点:趋势和季节性趋势:总体情况 季节性:周期性波动时间序列挖掘的基本思路:根据之前已有的序列数据,发现隐含的规则,来预测后面的发展趋势实现方法:首先对序列进行分割,根据某些特征进行聚类,得到少数几个模式, 将模式进行符号替换,将时间序列转换为符号序列,然后采用序列模式发现算法进行关联挖原创 2016-05-26 01:04:49 · 11712 阅读 · 0 评论 -
基于MapReduce编程模型的数据挖掘算法
Mapreduce是一个分布式计算模型,用来解决海量数据的计算问题。首先打个比方,我们要做菜,你切牛肉,我切土豆,这就是“Map”。我们人越多,切得就越快。然后我们把切好的牛肉和土豆放到一起,这就是“Reduce”。(1) Map阶段将一个大任务分解成小任务,并分发给每个节点,每个节点并行处理这些任务,处理速度很快。实现:读取文件内容的时候对每一行解析成key-value的形原创 2016-05-26 00:09:42 · 2655 阅读 · 0 评论 -
关联规则挖掘 ---- Apriori算法与CBA算法
基本概念:通过数据的关联性进行分析挖掘,适合用于大数据样本中。项集:包含0个或多个项的集合。包含k个项就是一个k项集事务:表示事件 (比如每次去商场购买东西是一次事务,而实际购买到的东西就是项集)支持度:说明给定数据集的频繁程度,sup(x->y)表示x和y同时出现的概率置信度:说明推理的可靠程度,con(x->y)表示在x出现的情况下,出现y的概率原创 2016-05-19 21:17:42 · 4891 阅读 · 1 评论