大数据
文章平均质量分 75
「已注销」
新一代码农,为成长而优化!
展开
-
Hive映射已存在的HBase表
1、首先要确保/usr/lib/hive/lib下HBase的jar包的版本要和实际环境中HBase的版本一致,需要用/usr/lib/hbase/li/目录下得jar包做软连接,如下:ln -s /usr/lib/hbase/lib/hbase-client-1.0.0-cdh5.4.3.jar /usr/lib/hive/lib/hbase-client.jarln -s /usr原创 2016-12-14 14:22:58 · 7235 阅读 · 3 评论 -
利用MapReduce对HBase数据进行统计分析
1、HBase作为一种kv数据库,能够很好的面对高吞吐率的在线数据读写服务,尤其是写操作,但是在非rowkey多条件查询、数据分析、统计等场景下,HBase表现的就不是很好了,这些场景下就比较适合来用MapReduce来计算。2、应用场景假设有一张HBase表article,它有一列是数据来源source,现在需要统计不同来源的文章数量(数据行数),对于这样的简单统计需求,可以利用MapR原创 2016-10-27 16:52:18 · 8801 阅读 · 0 评论 -
Solr5.5集群安装部署及使用
部署安装:1. 说明Solr5内置了Jetty服务,所以不用安装部署到Tomcat了。以下每步操作除了特殊说明外默认在集群中每个节点都需要操作, 操作的用户为root。 2. 修改系统配置修改hosts文件,加入各主机IP和主机名的映射;# vim /etc/hosts开放相应端口或者直接关闭防火墙。# service iptables stop# chkcon原创 2016-08-17 14:33:50 · 1248 阅读 · 1 评论 -
MapReduce开发环境搭建
1. 概述在使用UDH 过程中,难免需要开发M apReduce 程序,本文介绍如何搭建基于Eclipse的UDH MapReduce的开发环境。2. 准备UDH集群:这个可以是已经搭建好的远端UDH集群,也可以是本地伪集群,本文就以使用远端UDH集群为例进行说明。客户端开发环境:Eclipse+JDK1.7(JDK1.8)3. Maven Projec原创 2016-12-14 14:20:52 · 831 阅读 · 0 评论 -
Spark2.1.0集群部署
1、从官网下载2.1.0版本的Spark,spark-2.1.0-bin-hadoop2.7.tgz;2、拷贝都集群中各个节点,解压到特定目录下;3、启master服务:# ./sbin/start-master.sh master服务启来之后可以看到master的URL地址(或者在日志中查看)spark://Spark01:70774、启所原创 2017-04-01 17:37:42 · 1278 阅读 · 0 评论 -
Storm通过rJava调用R脚本的环境配置
Storm Bolt中通过rJava调用R脚本时,需要配置本地的R环境及修改Storm的环境。1、本地R配置系统安装R语言, HDP-UTILS中提供R的安装包,将这些包配置本地yum源# yum install R重新配置R的java环境变量# R CMD javareconf进入R中安装rJava或者本地安装# R CMD INSTALL rJa原创 2017-08-18 17:48:05 · 874 阅读 · 0 评论