数据挖掘
文章平均质量分 58
远处的一只猫
自有的生活态度
展开
-
数据挖掘——尝鲜
1.简介数据挖掘、机器学习这些字眼,在一些人看来,是门槛很高的东西。诚然,如果做算法实现甚至算法优化,确实需要很多背景知识。但事实是,绝大多数数据挖掘工程师,不需要去做算法层面的东西。他们的精力,集中在特征提取,算法选择和参数调优上。那么,一个可以方便地提供这些功能的工具,便是十分必要的了。而weka,便是数据挖掘工具中的佼佼者。Weka的全名是怀卡托智能分析环境(Waikato Envir原创 2015-10-31 11:16:10 · 390 阅读 · 0 评论 -
[未完待续]explain sql解析器
是否使用索引:gp=# explain select cjbh, jjbh, sfxq, sfsjsx, bccljg, cljgnr, spsj, zbld, ldclsj from jcj_cjxx_r where jjbh='20010015'; QUERY PLAN原创 2016-05-20 11:31:15 · 427 阅读 · 0 评论 -
大数据地铁图
转载 2015-10-31 11:16:39 · 1226 阅读 · 0 评论 -
数据挖掘——总结 【未完待续】
一、 数据挖掘有这么一个说法:在数据挖掘中,至少60%的费用可能要花在步骤(1)信息收集阶段,而其中至少60%以上的精力和时间花在了数据预处理过程中。 数据挖掘通常需要有8个步骤:l 信息收集l 数据集成l 数据规约l 数据清理l 数据变换l 数据挖掘实施过程l 模式评估l 知识表示原创 2015-10-31 11:16:41 · 859 阅读 · 0 评论 -
MapReduce的简单讲解
将以WordCount为例,解释ODPS MapReduce各个阶段的概念。假设存在一个文本a.txt,文本内每行是一个数字,我们要统计每个数字出现的次数。 文本内的数字称为Word,数字出现的次数称为Count。如果ODPS Mapreduce完成这一功能,需要经历下图描述的几个步骤:首先对文本进行分片,将每片内的数据作为单个Map Worker的输入; Map处理输入,每获原创 2015-10-31 11:16:29 · 326 阅读 · 0 评论 -
Spring初窥
一、注解SPRING中广泛使用注解,常用的有:@Controller@RequestMapping(value ="/tables/list", method = RequestMethod.GET)@ResponseBody 二、web.xml这个文件中,进行了集中配置,同时标明了servlet的配置文件。 如下这段,就表示我们有一个glider-servlet原创 2015-10-31 11:16:26 · 257 阅读 · 0 评论 -
hadoop架构初步理解
原创 2015-10-31 11:16:16 · 292 阅读 · 0 评论 -
数据库-除
投影运算的含义简单点就是:从表中选择需要的属性列。列是属性,行是元组..而且作投影之后可能会出现重复项,比如: A B C a1 b1 c1 a1 b2 c2 a2 b2 c3 作A的投影就是a1, a2; 减少了一行总结: 并:属性不变,元组可能增加(集合相等时不增加) 交:属性不变,元组可能减少(集合相等时不减少) 投影:属性可能减少(全投影时不减少),元组原创 2015-10-31 11:16:49 · 378 阅读 · 0 评论 -
一句话,大数据算法【更新ing】
决策树,一句话:建树,裁剪树枝,得到精简决策树,是一种直观展示可行性的决策分析方法。 PageRank,一句话:依据多个特征间的相互引用数据,得到各个特征的重要性排名。 贝叶斯, 一句话:在某特征概率已知情况下,另一特征出现的概率。 隐马尔可夫模型 HMM,一句话:根据一些隐藏状态,以及一个可观察状态的前N次信息,推算出下一次该可观察状态的情况。 关联分析,一句话:发现数据中不同项之间原创 2015-10-31 11:16:23 · 479 阅读 · 0 评论 -
Page Rank
PageRank,网页排名,又称网页级别、Google左侧排名或佩奇排名,是一种由[1] 根据网页之间相互的超链接计算的技术,而作为网页排名的要素之一,以Google公司创办人拉里·佩奇(LarryPage)之姓来命名。 Google用它来体现网页的相关性和重要性,在搜索引擎优化操作中是经常被用来评估网页优化的成效因素之一。Google的创始人拉里·佩奇和谢尔盖·布林于1998年在斯原创 2015-10-31 11:16:21 · 293 阅读 · 0 评论 -
数据挖掘算法概要
1. 统计方法贝叶斯推理,对数回归,ANOVA分析和对数线性模型2. 聚类分析分裂算法,凝聚算法,划分聚类,增量聚类3. 决策树和决策规则主要是为人工智能锁开发的归纳学习方法,譬如:CLS方法,ID3算法,C4.5算法机器对应的剪枝算法决策树和决策规则是解决实际应用中分类问题的数据挖掘方法。4. 关联规则购物篮分析,演绎算法,www路径遍历模式关联规则的算法可以原创 2015-10-31 11:16:19 · 502 阅读 · 0 评论 -
Storm Spark 和 Hadoop区别
从别人那剪过来一部分。Storm是最佳的流式计算框架,Storm由Java和Clojure写成,Storm的优点是全内存计算,所以它的定位是分布式实时计算系统,按照Storm作者的说法,Storm对于实时计算的意义类似于Hadoop对于批处理的意义。Storm的适用场景:1)流数据处理Storm可以用来处理源源不断流进来的消息,处理之后将结果写入到某个存储中去。2)分原创 2015-10-31 11:16:13 · 346 阅读 · 0 评论 -
hadoop安装[未完待续]
硬件三台虚拟机 硬件: CPU:2*3核 内存:16G 磁盘:500G(SATA) 操作系统: ubuntu 14.04原创 2016-04-06 16:26:21 · 442 阅读 · 0 评论