data mining
blacklee123
先思考再行动
展开
-
数据挖掘面试题
1. 给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url? 方案1:可以估计每个文件安的大小为50G×64=320G,远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。 s 遍历文件a,对每个url求取,然后根据所取得的值将url分别存储到1000个小文件(记为)中。转载 2014-01-10 20:58:55 · 747 阅读 · 0 评论 -
处理芯片cel格式数据的全自动R代码
>source(”http://bioconductor.org/biocLite.R”)>biocLite()全自动。只需要设置工作路径以及filelist.txt文件即可。filelist.txt,必须与CEL文件一起放置在工作目录内,文件以空格为间隔,分两列,分别是filename和factor 例filename factorMS1_(Mouse430_转载 2014-01-10 21:18:48 · 9760 阅读 · 0 评论 -
随机森林Random Forest
引言在机器学习中,随机森林由许多的决策树组成,因为这些决策树的形成采用了随机的方法,因此也叫做随机决策树。随机森林中的树之间是没有关联的。当测试数据进入随机森林时,其实就是让每一颗决策树进行分类,最后取所有决策树中分类结果最多的那类为最终的结果。因此随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。随机森林可以既可以处理属性为离散值的量,如ID3算法转载 2014-05-10 11:29:22 · 1489 阅读 · 1 评论 -
关联规则的R语言实现
文章参考资料:xccd:肖凯大牛的博文《Rdatamining》《R IN A NUTSHELL》注:如有疑惑的问题,参阅下文的预备知识!关联分析的挖掘任务可分解为两个步骤:一是发现频繁项集,二是从频繁项集中产生规则。############################ 关联分析 案例实践 ##############转载 2014-04-28 21:51:31 · 2912 阅读 · 0 评论 -
逻辑回归logistic regression
逻辑回归主要用于解决分类问题,在现实中有更多的运用,正常邮件or垃圾邮件车or行人涨价or不涨价用我们EE的例子就是:高电平or低电平 同时逻辑回归也是后面神经网络到深度学习的基础。 (原来编辑器就有分割线的功能啊……)一、Logistic Function(逻辑方程)同线性回归,我们会有一个Hypothe转载 2014-06-05 09:16:55 · 1004 阅读 · 0 评论 -
神经网络
神经元:在神经网络的模型中,神经元可以表示如下神经元的左边是其输入,包括变量x1、x2、x3与常数项1,右边是神经元的输出 神经元的输出函数被称为激活函数(activation function),输出值被称为激活值(activation value)。激活函数有很多种,其中最简单的莫过于sigmoid函数。除非特别声明,否则博客里提转载 2014-06-05 09:19:38 · 1004 阅读 · 0 评论 -
开源学习 Rweka
今天在找关联规则相关的资料时候,无意发现R语言中文论坛,虽然里面的资料有限,但是很有价值,譬如RWeka,一种开源的机器学习工具,在此予以介绍:背景介绍: #此前在首页部分显示#1)Weka:Weka有两种意思:一种不会飞的鸟的名字,一个机器学习开源项目的简称(Waikato Environment for Knowledge Analysis,http://www.cs.waikat转载 2014-06-19 13:19:04 · 946 阅读 · 0 评论 -
elm极限学习机
一、极限学习机的概念 极限学习机(Extreme Learning Machine) ELM,是由黄广斌提出来的求解单隐层神经网络的算法。 ELM最大的特点是对于传统的神经网络,尤其是单隐层前馈神经网络(SLFNs),在保证学习精度的前提下比传统的学习算法速度更快。二、极限学习机的原理ELM是一种新型的快速学习算法,对于单隐层神经网络,ELM 可以随机初始化输入权重和偏转载 2014-07-14 16:00:09 · 2330 阅读 · 0 评论