大数据
文章平均质量分 71
nma_123456
这个作者很懒,什么都没留下…
展开
-
行存储和列存储--大数据应用选择
目前大数据存储有两种方案可供选择:行存储和列存储。业界对两种存储方案有很多争持,集中焦点是:谁能够更有效地处理海量数据,且兼顾安全、可靠、完整性。从目前发展情况看,关系数据库已经不适应这种巨大的存储量和计算要求,基本是淘汰出局。在已知的几种大数据处理软件中,Hadoop的HBase采用列存储,MongoDB是文档型的行存储,Lexst是二进制型的行存储。在这里,我不讨论这些软件的技术和优缺点,只围转载 2015-05-23 21:28:27 · 2544 阅读 · 0 评论 -
Cloudera在Ubuntu的安装部署
1. 安装前的准备 准备好Ubuntu离线source,配置/etc/apt/source.list 准备好Cloudera Hadoop离线source,配置/etc/apt/source.list.d/cloudera.list 同步集群的/etc/hosts ssh免密码登录,cloudera-scm-server所在机器能够免密码登录其他cloudera-scm转载 2015-08-08 13:29:05 · 3380 阅读 · 0 评论 -
solr查询返回JSON格式
SolrDocumentList docs = response.getResults();1、JSONObject返回类似{"SolrDocument":{“1”:{},“2”:{}}Map mapDoc = new HashMap();int count = 1;for(SolrDocument doc : docs){mapDoc.put(count, doc);co原创 2015-09-11 15:20:17 · 5672 阅读 · 0 评论 -
hive设置reduce的最大值
hive.exec.reducers.max(默认为999) 计算reducer数的公式很简单: N=min(参数2,总输入数据量/参数1) 通常情况下,有必要手动指定reducer个数。考虑到map阶段的输出数据量通常会比输入有大幅减少,因此即使不设定reducer个数,重设参数2还是必要的。依据Hadoop的经验,可以将参数2设定为0.95*(集群中TaskTracker个数)。 正确的r原创 2016-05-10 16:14:45 · 2463 阅读 · 0 评论 -
relief算法研究
最近由于工作需要,对数据进行降维处理,通过对各种算法的研究,想寻找一种比较理想的算法,处理数据维度,达到降维的目的,对PCA进行研究,但是PCA是对当前多维数据的空间变换,无法达到物理降维的目的,因此想选择物理降维的算法,因此对卡方算法和relief算法进行相关研究,这两种算法是对数据的物理降维,是特征选择的操作算法。通过几天的查找资料,整理和总结一下内容:个人总结:relief算法是原创 2016-05-24 17:51:51 · 14590 阅读 · 2 评论 -
window客户端访问HDFS
通过widows客户端访问Hadoop集群,读取HDFS文件使用平台为eclipse,CDH5.1.0,hdf2.3.01、新建java project2、在集群中找到core-site.xml和hdfs-site文件拷贝到java project的工程下,放置到bin文件夹下在src右键,新建source folder即可,如下2、编程代码如下:package c原创 2016-04-21 17:11:33 · 4916 阅读 · 0 评论 -
wordcount
1·、新建maven工程pom.xml文件内容如下: junit junit 3.8.1 test org.apache.hadoop hadoop-mapreduce-client-core 2.3.0 org.apache.hadoop hadoop-hdfs 2.3.0 org.apache.hadoop had原创 2016-06-07 16:19:30 · 365 阅读 · 0 评论 -
yarn编码获取application列表
1、 新建maven工程2、 编写代码package Yarn.Yarn;import java.io.IOException;import java.io.OutputStreamWriter;import java.io.PrintStream;import java.io.PrintWriter;import java.nio.charset.Charset;impor原创 2016-06-16 16:21:38 · 9291 阅读 · 2 评论