DataMining
文章平均质量分 62
dataee
解决方案咨询
大数据处理
系统架构
展开
-
数据挖掘的数据集资源
来自互联网:1、气候监测数据集 http://cdiac.ornl.gov/ftp/ndp026b2、几个实用的测试数据集下载的网站http://www.cs.toronto.edu/~roweis/data.htmlhttp://www.cs.toronto.edu/~roweis/data.htmlhttp://kdd.ics.uci.edu/summary.ta...原创 2012-06-11 19:26:12 · 184 阅读 · 0 评论 -
pearson相关系数
概述:pearson相关系数用于比较两组变量是否线性相关,比如{a1,a2,a3,a4}与{b1,b2,b3,b4}他们都是同增加或者同减少,那么他们就是相关的。取值:相关系数的取值为-1<r<1,为0时表示不相干,正数的时候为正相关,负数的时候为负相关,如下所示: |r|取值与相关程度的关系如下所示:适用条件:1、两变量均应由测量得到的连续变量。2、两变...2014-06-26 15:21:25 · 567 阅读 · 0 评论 -
推荐引擎中如何解决冷启动问题
概述:冷启动在推荐系统中就是系统推荐中因为没有用户行为或者相对详细的资料那么对此用户推荐的时候就不知道他的细粒度兴趣点,这种情况叫冷启动;解决方案:1.基于用户的profile,如果能对用户分组,利用组的行为信息进行推荐是最好的,如果不能那么可以基于profile获取粗粒度的兴趣点;2.基于规则,可以利用规则进行定制然后进行推荐相应的规则数据,这个数据最少会有ip这个维度;3...2013-09-05 17:42:55 · 207 阅读 · 0 评论 -
数据归一化
需求:向量化的时候需要做数据的归一化,以便所有权重等权归一化常见方法:1.min-max标准化是对原始数据的线性变换,使结果值映射到[0 - 1]之间。转换函数如下:max为样本数据的最大值,min为样本数据的最小值。缺陷:数据较少的时候需要注意同样映射到0-1而不是其他2.Z-score标准化方法这种方法给予原始数据的均值(mean)和标准差(standar...2015-01-06 17:34:47 · 148 阅读 · 0 评论 -
R之折线图
需求:用R语言画折线图实现:xiao <- read.table("d:/final.txt",header=T,sep=",")data<-xiao[order(-xiao[,2]),]Precision<-data[,1]Recall<-data[,2]plot(Recall,Precision,type="o",main="PR图",c2015-01-13 10:51:22 · 589 阅读 · 0 评论 -
数据挖掘之CRISP-DM 模型
CRISP-DM (cross-industry standard process for data mining), 即为"跨行业数据挖掘标准流程".所经历的阶段如下:1: business understanding: 即商业理解. 在第一个阶段我们必须从商业的角度上面了解项目的要求和最终目的是什么. 并将这些目的与数据挖掘的定义以及结果结合起来.2.data understan...2014-07-30 16:22:16 · 1064 阅读 · 0 评论 -
基于lucene创建索引,查询索引的方式
需求:内容包括两部分,一部分为唯一标示即id,一部分为内容,要实现对内容基于lucene的检索,模拟实现基于uuid作为id,内容为普通的字符串环境:<dependency> <groupId>org.safehaus.jug</groupId> <artifactId>jug</artifactId> <...2014-03-19 15:12:06 · 127 阅读 · 0 评论 -
基于boilerpipe抽取页面乱码问题解决方式
需求:基于boilerpipe抽取页面的文本内容,基于url的openStream来获取页面的时候会碰到乱码,解决方式是基于jsoup来获取body的byte流实现:jar依赖:<dependency> <groupId>com.syncthemall</groupId> <artifactId>boilerpipe<...2014-03-21 14:57:15 · 267 阅读 · 0 评论 -
weka之数据预处理
weka在做数据预处理的时候针对attribute提供了多种方式,包括值的各种转换,常用的如下:1.缺失值处理weka.filters.unsupervised.attribute.ReplaceMissingValues。 对于数值属性,用平均值代替缺失值,对于nominal属性,用它的mode(出现最多的值)来代替缺失值。 2.规范化处理类weka.filters.uns...2014-08-13 16:27:27 · 2288 阅读 · 0 评论 -
weka之Mysql数据装载
Instances为weka的数据集,Instance是他的记录,attribute为其数据列,那么可以用db作为其数据源,实现如下:DatabaseLoader databaseLoader = new DatabaseLoader();databaseLoader.setUser("root");databaseLoader.setPassword("root23");dat...2014-08-13 18:37:13 · 136 阅读 · 0 评论 -
数据挖掘之分类指标:召回率 、精确度、准确率、虚警率和漏警率
场景如下:假设原样本有两类,True和False,其中:1.总共有T个类别为True的样本;2.总共有F个类别为False的样本;分类预测后:1.总共有TT个类别为True的样本被系统判为True,FT个类别为True的样本被系统判为False,则TT+FT=T2.总共有FF个类别为False的样本被系统判为False,TF个类别为False的样本被系统判为True,则...2014-09-06 22:15:46 · 2478 阅读 · 0 评论 -
Mahout分类之决策树PartialBuilder应用使用
mahout版本:0.9hadoop版本:2.3.0基于决策树步骤如下:1.基于已有数据形成描述文件2.训练建树3.分类预测数据集:http://nsl.cs.unb.ca/NSL-KDD/下载KDDTrain+.TXT和KDDTest+.TXT具体的应用步骤:1.上传数据到hdfs上:hadoop put *.TXT /user/test/df/...2014-09-09 18:13:52 · 237 阅读 · 0 评论 -
Mahout之Describe应用使用
Describe用于生成数据描述文件主要用于决策树分类使用,换句话说就是对数据项的描述说明,为json格式,生成的样例如下:[ { "values": null, "label": false, "type": "numerical" }, { "values": [ ...2014-09-09 18:56:44 · 147 阅读 · 0 评论 -
pearson相关系数计算
依赖 lib:<dependency> <groupId>org.apache.commons</groupId> <artifactId>commons-math3</artifactId> <version>3.1.1</version></dependency>2014-09-26 17:20:12 · 1004 阅读 · 0 评论 -
Mahout之Item-based应用使用
环境:<dependency> <groupId>org.apache.mahout</groupId> <artifactId>mahout-core</artifactId> <version>0.8</version></dependency>&2014-01-21 16:41:51 · 99 阅读 · 0 评论 -
在做协同的时候Mahout支持的DataModel类型
需求:基于mahout做协同那么mahout支持的DataModel类型有那些?环境:<dependency> <groupId>org.apache.mahout</groupId> <artifactId>mahout-core</artifactId> <version>0.8</vers...2014-01-13 13:12:31 · 979 阅读 · 0 评论 -
推荐数据挖掘的数据集
明尼苏达大学计算机科学系GroupLens实验室概创建于1992年,现有教授三人:John Riedl, Joseph Konstan,Loren Terveen,主要研究方向包括推荐系统,在线社区,移动及普适技术,数字图书馆,和地理信息系统。 网址为:http://www.grouplens.org/ ...原创 2012-07-02 13:36:47 · 276 阅读 · 0 评论 -
Hadoop在Mapper中获取当前操作文件的文件名
需求如下:hadoop的MR执行时,有时候需要获取当前读取的文件名,如对qq聊天记录的分词解析,每个聊天记录的问题命名为qq1-qq2.txt用来表示qq1对qq2说的所有的聊天记录,那么当我们分词完成之后,需要入Hbase,这个时候rowkey为qq1-qq2,内容为语义分析的结果列表。方案:针对此操作需要获取当前读取的文件的路径或者直接读到文件名,从而得到文件名,实现如下:S...2013-03-01 16:56:16 · 806 阅读 · 0 评论 -
MapReduce一个Mapper读Hbase表并且写Hbase方案
场景: 在MapReduce操作Hbase的时候有时候不需要reduce,只需要用Mapper的时候读A表,处理完之后写B表,也就是A表为输入表,B表为输出表。需求就是 A中的有一列E:E,把‘E:E’中为数字的数据保存到B表中。表说明: create A,'E' create B,'E'方案一:直接在mapper中打开B表,如果不是数字,那么直接...2013-03-07 14:48:24 · 272 阅读 · 0 评论 -
利用MapReduce的方式往固定表mock测试数据
场景: mysql有压力测试,会利用压测工具,mock一大批数据,但是hbase没有提供相应的功能,此时我们可以自己写一个mock工具,以满足我们的测试需求。分析:我们看下Mapper的源码:public void run(Context context) throws IOException, InterruptedException { setup(conte...2013-03-07 16:59:10 · 156 阅读 · 0 评论 -
Hadoop中几个重要的进程
通过jps可以查看相应的进程列表,主要进程如下:org.apache.hadoop.hdfs.server.namenode.NameNode;org.apache.hadoop.hdfs.server.namenode.SecondaryNameNode;org.apache.hadoop.hdfs.server.datanode.DataNode;org.apache.ha...2013-03-26 17:36:43 · 658 阅读 · 0 评论 -
mahout 对比weka
mahout:1.可大规模分布式计算2.目标对象是程序开发人员3.与hadoop和lucene有很好的接口4.是围绕着可扩展的算法和接口特殊设计的5.命令行和API6.Apache licenseweka:1.内存消耗厉害2.目标对象是数据挖掘分析人员3.有大量的算法集4.GUI5.GPL...2013-04-06 17:25:48 · 246 阅读 · 0 评论 -
Ansj 通过List方式加入自定义词典
首先灰常感谢@ansjsun采用Ansj对文本进行切词,并作简单统计,加入自定义词典代码如下: private void loadAnsjDic() { List<String> dic = Utils.getDicList(); for (int i = 0; i < dic.size(); i++) { UserDefineLibrary.inser...2012-11-06 15:48:00 · 787 阅读 · 0 评论 -
基于内容的文本相似计算步骤
基于内容的文本相似性计算步骤如下:1.针对内容进行切词,一般只保留名词(如果是行业词汇的话那么可以不计算idf)2.针对切词计算tf(词频)某一个给定的词语在该文件中出现的次数(可以做归一化也可以不做归一化看需求) 3.针对切词计算idf(idf为逆向文件频率)[可以不计算]某词汇的idf=总文件数目除以包含该词语之文件的数目,再将得到的商取对数 4.针对tf和i...2013-04-19 19:02:45 · 119 阅读 · 0 评论 -
mahout常用Vector一览表
mahout常用Vector一览表:org.apache.mahout.math.ConstantVector;org.apache.mahout.math.DenseVector;org.apache.mahout.math.NamedVector;org.apache.mahout.math.RandomAccessSparseVector;org.apache.maho...2013-04-19 19:16:56 · 188 阅读 · 0 评论 -
MinHash概述及举例
MinHash可用于聚类,计算向量相似等,两个向量相似计算,通过minhash降维从而把计算量维持在一个常数级别,他是基于Jaccard Index 相似度的算法,也是一种LSH的降维的方法。举例描述:A={中国,互联网,博客,Java,管理}B={互联网,Java,金融,数据库,事务,源码}那么A和B的相似值为:S(A,B)=|A∩B|/|A∪B|=2/9,当为1的时候为极...2013-04-28 16:29:51 · 401 阅读 · 0 评论 -
at org.apache.hadoop.io.serializer.SerializationFactory.getSerializer(Serializat
Hadoop运行job的时候抛出异常如下: java.lang.NullPointerExceptionat org.apache.hadoop.io.serializer.SerializationFactory.getSerializer(SerializationFactory.java:73)at org.apache.hadoop.mapred.MapTask$Ma...原创 2012-08-20 14:56:58 · 158 阅读 · 0 评论 -
Mahout之文本向量化
背景:进行文本挖掘的时候,无论是聚类还是相似计算首先需要向量化。思路:对于某一文本计算完其tf(tf-idf)之后生成word->tf(tf-idf)的对应表,那么构造成向量记做:v=(a1,a2,…,an) 此为为n维向量。a1...an为tf(tf-idf),同时我们把word转换成int来作为下标。实现: /** * vector转换 * ...2013-05-23 16:43:24 · 187 阅读 · 0 评论 -
Mahout实现的机器学习算法一览表
Apache Mahout 是 ApacheSoftware Foundation (ASF) 旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序,并且,在 Mahout 的最近版本中还加入了对Apache Hadoop 的支持,使这些算法可以更高效的运行在云计算环境中。在Mahout实现的机器学习算法见下表: ...2012-09-05 11:19:40 · 212 阅读 · 0 评论 -
cqlsh执行报错"No appropriate python interpreter found."
版本信息:apache-cassandra-2.2.9执行bin/cqlsh的时候报错错误信息:写道No appropriate python interpreter found. 原因:python版本低,需要python2.7解决方案:写道升级python到2.7即可 ...2017-03-21 18:04:23 · 960 阅读 · 1 评论