- 博客(29)
- 资源 (1)
- 收藏
- 关注
原创 hbase开源SQL引擎Phoenix安装步骤和基本使用
第一步:上传Phoenix第二步:解压Phoenix并将解压后的包里的phoenix-core-4.5.2-HBase-1.1.jar拷贝到集群各个节点HBase的lib目录下:cp /usr/local/phoenix/phoenix-core-4.5.2-HBase-1.1.jar /usr/local/hbase/libscp /usr/local/phoenix/phoenix-core-...
2018-04-23 16:56:42 430
原创 hadoop+zookeeper高可用性集群出现两个namenode均为standby状态原因及解决方法
使用hadoop fs -ls / 命令查看hdfs中的文件 报错如下:检查发现master和slave3两个NameNode的状态均为standby原因:先启动了hdfs再启动zookeeper 导致zookeeper的选举机制zkfc(DFSZKFailoverController)没有格式化 NameNode节点的自动切换机制没有开启 两个NameNode都处于standby状态解决方法:正...
2018-04-21 19:30:21 9720
原创 使用Java API 操作hbase
第一步:创建项目 导入需要的jar包第二步:代码如下:package com.xjtuse.hbase;import java.io.IOException;import java.util.*;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.*;import org.apache.hadoop....
2018-04-20 19:11:34 931
原创 在hbase shell中使用list命令报错:ERROR: Can't get master address from ZooKeeper; znode data == null原因及解决方法
电脑意外关机 启动后打开hbase shell 输入list命令查看所有表 报错如下:ERROR: Can't get master address from ZooKeeper; znode data == null原因:运行hbase(zookeeper)的用户无法写入zookeeper文件,导致znode data为空。解决方法:方法一:重启hbase(可能是zookeeper或hbase不...
2018-04-20 19:11:14 19358 3
原创 hbase shell基础命令
1. 进入hbase shell命令界面:hbase shell2. 查看表格:list3. 查看所有命令:help4. 创建表格(如果不记得命令格式 可以直接输入create 系统会给出提示和示例):create 'test','f1','f2','f3'创建了一个表名为test 有f1 f2 f3三个列族的表5. 查看表格结构信息:desc 'test'如果某个命令输错了 直接按退格键是无法回...
2018-04-15 23:22:11 1058
原创 hbase完全分布式配置
第一步:修改hbase的配置文件hbase-site.xml 加入以下内容:<property> <name>hbase.rootdir</name> <value>hdfs://master:8020/hbase</value></property><property> <name>...
2018-04-15 22:11:40 3102 1
原创 hbase单机版(standalone)安装和配置
第一步:上传安装包第二步:修改hbase配置文件hbase-env.sh 加入以下内容:第三步:修改hbase配置文件hbase-site.xml 加入以下内容:第三步:启动hbase单机模式下hbase有自带的zookeeper 生产环境下一般搭建完全分布式的zookeeper集群注意:如果自己已经安装并启动了zookeeper 一定要先关闭 因为hbase自带有zookeeper 如果自己安装...
2018-04-15 01:00:16 3793
原创 hive正则匹配
第一步:创建apachelog表(用于存放apache的访问日志:access_log)CREATE TABLE apachelog ( host STRING, identity STRING, user_d STRING, time STRING, request STRING, status STRING, size STRING )ROW FORMAT SERDE 'org....
2018-04-14 22:17:44 2049
原创 使用JDBC连接和操作hive(hiveserver2)
第一步:创建项目 并导入hive相关jar包第二步:编写代码如下:import java.sql.Statement;import java.sql.DriverManager;import org.apache.tools.ant.taskdefs.Echo;public class TestHive2 { private static String driverName = "org.apa...
2018-04-14 00:12:08 5141 2
原创 hive基本操作
1. 创建表格简单案例CREATE TABLE page_view ( page_url string, ip string)ROW FORMAT DELIMITEDFIELDS TERMINATED BY '\t'STORED AS TEXTFILE;行之间默认以换行符隔开 不需要指定关系型数据库数据以二进制文件形式存储 而hive中的数据以文本文件形式存储复杂案例CREATE TABLE ...
2018-04-13 21:55:58 7754 1
原创 hive本地mysql方式(local方式)配置及踩坑实录
第一步:安装mysql第二步:上传mysql jdbc驱动程序到hive的lib目录下 并解压第三步:在hive-site.xml文件中加入以下内容:<configuration><property> <name>hive.metastore.warehouse.dir</name> <value>/user/hive_rem...
2018-04-12 01:45:19 2885
原创 hive单用户模式(Derby方式)配置及踩坑实录
第一步:将hive上传到master上 并解压第二步:将hive的conf目录下的hive-default.xml.template文件拷贝一份 并将名称改为hive-site.xml第三步:在hive-site.xml文件中加入以下内容:<configuration> <property> <name>javax.jdo.option.Connect...
2018-04-12 00:22:36 1657
转载 MapReduce的执行环境
MR执行环境有两种:本地测试环境,服务器环境服务器环境的缺点在于不适合做调试 而本地测试环境非常适合做调试 可以在开发时选择本地测试环境 在正式运行时选择服务器环境1. 本地测试环境(windows):在windows下hadoop的安装目录的bin目录下放置winutils.exe文件(windows下的调试工具 兼容hadoop)(1)在windows下配置hadoop的环境变量配置完环境变量...
2018-04-10 13:11:02 1062
原创 MapReduce实例——WordCount
第一步:创建MapReduce_Test项目 导入hdfs、mapreduce和yarn相关jar包第二步:编写WordCountMapper类 代码如下:package com.xjtuse;import java.io.IOException;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWrit...
2018-04-10 01:55:34 2407
原创 Yarn中Resource Manager HA集群搭建
第一步:在master上打开hadoop的配置文件yarn-site.xml 加入以下内容<configuration><!-- Site specific YARN configuration properties --><property> <name>yarn.resourcemanager.ha.enabled</name&g...
2018-04-09 23:56:21 2935
原创 VMWare虚拟机踩坑实录
背景介绍:由于我的固态硬盘比较小 只有128G 在搭建大数据环境的时候需要四台虚拟机 无奈只能在SSD上创建两台 在移动硬盘上创建两台 由于不小心移动了移动硬盘 导致虚拟机异常停止工作 打开时 报错如下:无法打开虚拟机 未找到.vmx文件第一次碰到这个问题的时候我是重新克隆一台虚拟机 但是这样特别麻烦 需要修改很多配置文件 这次我在网上查找了一些资料解决办法如下:在VMware中移除掉出现问题的...
2018-04-08 23:18:03 2056
原创 hadoop HA集群搭建
第一步:由于Hdoop HA集群中没有SecondaryNameNode 因此要先删除hadoop目录下的masters文件在所有机器上输入rm -rf /usr/local/hadoop/masters第二步:删除之前的非高可用hadoop集群产生的数据文件第三步:在master上修改hadoop目录下的配置文件hdfs-site.xml完整的配置文件如下:19 <configuratio...
2018-04-08 01:40:48 2164 4
原创 zookeeper集群搭建
第一步:上传zookeeper到master上第二步:解压到指定目录第三步:修改zookeeper/conf目录下的配置文件zoo.cfg(需要新创建) 加入以下内容在master slave1 slave2上安装zookeepertickTime=2000dataDir=/opt/zookeeper # zookeeper在启动时会自动创建clientPort=2181initLimit=...
2018-04-07 20:45:26 230
原创 hdfs单点故障和内存受限问题
1. 解决hdfs单点故障问题的方法HDFS HA:通过主备NameNode解决 一个集群中只能有一个NameNode处于工作状态 当主NameNode发送故障 则切换到备NameNode上(NameNode的两大功能:接收客户端的读写请求 存储元数据 )整个集群在输入hdfs namenode -format时 产生元数据 此时hdfs集群还没有启动 主NameNode会格式化产生(初始化)fs...
2018-04-06 02:02:24 3067
原创 Java API操作hdfs踩坑实录
使用Java API出现以下异常:org.apache.hadoop.security.AccessControlException: Permission denied: user=Administrator, access=WRITE, inode="/":root:supergroup:drwxr-xr-x 原因:windows本地的用户名是Administrator 与hadoop的用户名...
2018-04-06 00:27:18 1275 4
原创 使用Eclipse插件操作hdfs
第一步:将插件hadoop-eclipse-plugin-2.5.1.jar拷贝到Eclipse安装目录的plugins目录下 重启Eclipse第二步:添加location点击finish之后就可以看到添加成功(0)其实就表示hdfs系统的根目录 在(0)这个文件夹上右键 就可以在hdfs根目录下新建新的子目录、删除目录 或者从本地windows上传文件、文件夹到hdfs 也可以从hdfs中下...
2018-04-05 15:13:33 740
原创 使用Java API操作hdfs
第一步:创建一个新的项目 并导入需要的jar包公共核心包公共依赖包hdfs核心包hdfs依赖包第二步:将Linux中hadoop的配置文件拷贝到项目的src目录下第三步:配置windows本地的hadoop环境变量(HADOOP_HOME:hadoop的安装目录 Path:在后面添加hadoop下的bin目录)第四步:使用windows下编译好的hadoop替换hadoop的bin目录和lib目录...
2018-04-05 14:33:50 27314
原创 hadoop集群搭建踩坑实录
由于不可控以及不可知的原因 我搭建的hadoop集群突然显示虚拟机出现了问题 导致某一个DataNode数据丢失 并且无法通过Xshell远程访问其他的DataNode 主机和虚拟机无法互相ping通 网上能找的解决办法基本都找了 依然无法解决 因此我能想到的是只能删除虚拟机 重新克隆一台机器 然而还是无法通过远程连接 无奈之下 我重启电脑 发现又可以通过Xshell远程访问了 具体原因尚不知晓克...
2018-04-05 00:58:46 590
原创 hadoop shell命令行基础
1. 查看hdfs根目录下的文件:hadoop fs -ls hdfs://master:9000/可以简写为以下的形式:hadoop fs -ls /或者这么写:hdfs dfs -ls /2. 创建文件夹:hadoop fs -mkdir /test3. 在指定文件夹中创建空文件:hadoop fs -touchz /test/zs.txt文件为空时 再创建一个同名的文件不会报错 4. 上传...
2018-04-03 23:31:14 7315 1
原创 hadoop2.5.1集群安装步骤
第一步:使用date命令查看时间 确保四台虚拟机的时间保持同步(相差30s以内都可以接受) 不同步的话 需要跟同一个公用时间同步服务器同步(ntpdate命令)(安装hadoop之前要确保兼容的jdk已经安装好) 第二步:设置SSH免密登录(非必须) 是因为如果不配置的话 在一个节点上启动hdfs时 它会默认远程登录到其他节点启动,这时就会暂停 需要手动输入密码 才能继续免密登...
2018-04-03 01:25:20 916
原创 hadoop安装前的准备工作
第一步:首先要确定hadoop、hbase的版本如果需要同时使用整个hadoop生态圈的软件 需要格外注意兼容性的问题 一般不能使用最新版本的hadoop 要下载稳定版目前企业最常用的是hadoop 2.x(hadoop 0.x一般是hadoop团队测试用的)以下演示如何下载稳定版这个就是hadoop在国内稳定的镜像站 选择stable2就可以看到目前最新的稳定版是hadoop 2.9.0查看hb...
2018-04-03 00:26:49 763
原创 Linux下部署Solr集群及简单操作
第一步:解压solr压缩包 将solr-4.9.1\example\webapps目录下的solr.war包上传到tomcat的webapps文件夹下第二步:将需要的jar包上传到/usr/local/tomcat/webapps/solr/WEB-INF/lib目录下第三步:修改solr的配置文件 设置solr homecd /optmkdir datacd datamkdir solrvim ...
2018-04-02 00:00:54 334
原创 使用Java API操作Lucene
第一步:创建一个动态网站项目Lucene_Test第二步:准备好需要做索引的数据 并放到合适的目录中(F:\Files\data) 以及存放索引的目录(F:\Files\index)(不要使用中文目录)第三步:导入Lucene-4.9.1的jar包导入hadoop的常用包 便于进行文件处理第三步:创建CreateIndex类 代码如下package com.lucene;import org.ap...
2018-04-01 21:17:06 1715
转载 Lucene和Solr原理初探
Lucene是一个全文搜索框架,而不是应用产品。因此它并不像http://www.baidu.com/ 或者google Desktop那样拿来就能用,它只是提供了一种工具让你能实现这些产品。实际上lucene的功能很单一,说到底,就是你给它若干个字符串,然后它为你提供一个全文搜索服务,告诉你你要搜索的关键词出现在哪里。传统的关系型数据库搜索速度慢,性能差,其原因在于在查询数据时例如模糊查询“%l...
2018-04-01 14:02:47 221
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人