2018年04月_温文尔雅的流氓

原创 hbase开源SQL引擎Phoenix安装步骤和基本使用

第一步：上传Phoenix第二步：解压Phoenix并将解压后的包里的phoenix-core-4.5.2-HBase-1.1.jar拷贝到集群各个节点HBase的lib目录下：cp /usr/local/phoenix/phoenix-core-4.5.2-HBase-1.1.jar /usr/local/hbase/libscp /usr/local/phoenix/phoenix-core-...

2018-04-23 16:56:42 430

原创 hadoop+zookeeper高可用性集群出现两个namenode均为standby状态原因及解决方法

使用hadoop fs -ls / 命令查看hdfs中的文件报错如下：检查发现master和slave3两个NameNode的状态均为standby原因：先启动了hdfs再启动zookeeper 导致zookeeper的选举机制zkfc（DFSZKFailoverController）没有格式化 NameNode节点的自动切换机制没有开启两个NameNode都处于standby状态解决方法：正...

2018-04-21 19:30:21 9720

原创使用Java API 操作hbase

第一步：创建项目导入需要的jar包第二步：代码如下：package com.xjtuse.hbase;import java.io.IOException;import java.util.*;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.*;import org.apache.hadoop....

2018-04-20 19:11:34 931

原创在hbase shell中使用list命令报错：ERROR: Can't get master address from ZooKeeper; znode data == null原因及解决方法

电脑意外关机启动后打开hbase shell 输入list命令查看所有表报错如下：ERROR: Can't get master address from ZooKeeper; znode data == null原因：运行hbase(zookeeper)的用户无法写入zookeeper文件，导致znode data为空。解决方法：方法一：重启hbase（可能是zookeeper或hbase不...

2018-04-20 19:11:14 19358 3

原创 hbase shell基础命令

1. 进入hbase shell命令界面：hbase shell2. 查看表格:list3. 查看所有命令：help4. 创建表格（如果不记得命令格式可以直接输入create 系统会给出提示和示例）：create 'test','f1','f2','f3'创建了一个表名为test 有f1 f2 f3三个列族的表5. 查看表格结构信息：desc 'test'如果某个命令输错了直接按退格键是无法回...

2018-04-15 23:22:11 1058

原创 hbase完全分布式配置

第一步：修改hbase的配置文件hbase-site.xml 加入以下内容：<property> <name>hbase.rootdir</name> <value>hdfs://master:8020/hbase</value></property><property> <name&gt...

2018-04-15 22:11:40 3102 1

原创 hbase单机版（standalone）安装和配置

第一步：上传安装包第二步：修改hbase配置文件hbase-env.sh 加入以下内容：第三步：修改hbase配置文件hbase-site.xml 加入以下内容：第三步：启动hbase单机模式下hbase有自带的zookeeper 生产环境下一般搭建完全分布式的zookeeper集群注意：如果自己已经安装并启动了zookeeper 一定要先关闭因为hbase自带有zookeeper 如果自己安装...

2018-04-15 01:00:16 3793

原创 hive正则匹配

第一步：创建apachelog表（用于存放apache的访问日志：access_log）CREATE TABLE apachelog ( host STRING, identity STRING, user_d STRING, time STRING, request STRING, status STRING, size STRING )ROW FORMAT SERDE 'org....

2018-04-14 22:17:44 2049

原创使用JDBC连接和操作hive（hiveserver2）

第一步：创建项目并导入hive相关jar包第二步：编写代码如下：import java.sql.Statement;import java.sql.DriverManager;import org.apache.tools.ant.taskdefs.Echo;public class TestHive2 { private static String driverName = "org.apa...

2018-04-14 00:12:08 5141 2

原创 hive基本操作

1. 创建表格简单案例CREATE TABLE page_view ( page_url string, ip string)ROW FORMAT DELIMITEDFIELDS TERMINATED BY '\t'STORED AS TEXTFILE;行之间默认以换行符隔开不需要指定关系型数据库数据以二进制文件形式存储而hive中的数据以文本文件形式存储复杂案例CREATE TABLE ...

2018-04-13 21:55:58 7754 1

原创 hive本地mysql方式（local方式）配置及踩坑实录

第一步：安装mysql第二步：上传mysql jdbc驱动程序到hive的lib目录下并解压第三步：在hive-site.xml文件中加入以下内容：<configuration><property> <name>hive.metastore.warehouse.dir</name> <value>/user/hive_rem...

2018-04-12 01:45:19 2885

原创 hive单用户模式（Derby方式）配置及踩坑实录

第一步：将hive上传到master上并解压第二步：将hive的conf目录下的hive-default.xml.template文件拷贝一份并将名称改为hive-site.xml第三步：在hive-site.xml文件中加入以下内容：<configuration> <property> <name>javax.jdo.option.Connect...

2018-04-12 00:22:36 1657

转载 MapReduce的执行环境

MR执行环境有两种：本地测试环境，服务器环境服务器环境的缺点在于不适合做调试而本地测试环境非常适合做调试可以在开发时选择本地测试环境在正式运行时选择服务器环境1. 本地测试环境(windows)：在windows下hadoop的安装目录的bin目录下放置winutils.exe文件（windows下的调试工具兼容hadoop）（1）在windows下配置hadoop的环境变量配置完环境变量...

2018-04-10 13:11:02 1062

原创 MapReduce实例——WordCount

第一步：创建MapReduce_Test项目导入hdfs、mapreduce和yarn相关jar包第二步：编写WordCountMapper类代码如下：package com.xjtuse;import java.io.IOException;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWrit...

2018-04-10 01:55:34 2407

原创 Yarn中Resource Manager HA集群搭建

第一步：在master上打开hadoop的配置文件yarn-site.xml 加入以下内容<configuration><property> <name>yarn.resourcemanager.ha.enabled</name&g...

2018-04-09 23:56:21 2935

原创 VMWare虚拟机踩坑实录

背景介绍：由于我的固态硬盘比较小只有128G 在搭建大数据环境的时候需要四台虚拟机无奈只能在SSD上创建两台在移动硬盘上创建两台由于不小心移动了移动硬盘导致虚拟机异常停止工作打开时报错如下：无法打开虚拟机未找到.vmx文件第一次碰到这个问题的时候我是重新克隆一台虚拟机但是这样特别麻烦需要修改很多配置文件这次我在网上查找了一些资料解决办法如下：在VMware中移除掉出现问题的...

2018-04-08 23:18:03 2056

原创 hadoop HA集群搭建

第一步：由于Hdoop HA集群中没有SecondaryNameNode 因此要先删除hadoop目录下的masters文件在所有机器上输入rm -rf /usr/local/hadoop/masters第二步：删除之前的非高可用hadoop集群产生的数据文件第三步：在master上修改hadoop目录下的配置文件hdfs-site.xml完整的配置文件如下：19 <configuratio...

2018-04-08 01:40:48 2164 4

原创 zookeeper集群搭建

第一步：上传zookeeper到master上第二步：解压到指定目录第三步：修改zookeeper/conf目录下的配置文件zoo.cfg（需要新创建）加入以下内容在master slave1 slave2上安装zookeepertickTime=2000dataDir=/opt/zookeeper # zookeeper在启动时会自动创建clientPort=2181initLimit=...

2018-04-07 20:45:26 230

原创 hdfs单点故障和内存受限问题

1. 解决hdfs单点故障问题的方法HDFS HA：通过主备NameNode解决一个集群中只能有一个NameNode处于工作状态当主NameNode发送故障则切换到备NameNode上（NameNode的两大功能：接收客户端的读写请求存储元数据）整个集群在输入hdfs namenode -format时产生元数据此时hdfs集群还没有启动主NameNode会格式化产生（初始化）fs...

2018-04-06 02:02:24 3067

原创 Java API操作hdfs踩坑实录

使用Java API出现以下异常：org.apache.hadoop.security.AccessControlException: Permission denied: user=Administrator, access=WRITE, inode="/":root:supergroup:drwxr-xr-x 原因：windows本地的用户名是Administrator 与hadoop的用户名...

2018-04-06 00:27:18 1275 4

原创使用Eclipse插件操作hdfs

第一步：将插件hadoop-eclipse-plugin-2.5.1.jar拷贝到Eclipse安装目录的plugins目录下重启Eclipse第二步：添加location点击finish之后就可以看到添加成功(0)其实就表示hdfs系统的根目录在(0)这个文件夹上右键就可以在hdfs根目录下新建新的子目录、删除目录或者从本地windows上传文件、文件夹到hdfs 也可以从hdfs中下...

2018-04-05 15:13:33 740

原创使用Java API操作hdfs

第一步：创建一个新的项目并导入需要的jar包公共核心包公共依赖包hdfs核心包hdfs依赖包第二步：将Linux中hadoop的配置文件拷贝到项目的src目录下第三步：配置windows本地的hadoop环境变量（HADOOP_HOME：hadoop的安装目录 Path：在后面添加hadoop下的bin目录）第四步：使用windows下编译好的hadoop替换hadoop的bin目录和lib目录...

2018-04-05 14:33:50 27314

原创 hadoop集群搭建踩坑实录

由于不可控以及不可知的原因我搭建的hadoop集群突然显示虚拟机出现了问题导致某一个DataNode数据丢失并且无法通过Xshell远程访问其他的DataNode 主机和虚拟机无法互相ping通网上能找的解决办法基本都找了依然无法解决因此我能想到的是只能删除虚拟机重新克隆一台机器然而还是无法通过远程连接无奈之下我重启电脑发现又可以通过Xshell远程访问了具体原因尚不知晓克...

2018-04-05 00:58:46 590

原创 hadoop shell命令行基础

1. 查看hdfs根目录下的文件：hadoop fs -ls hdfs://master:9000/可以简写为以下的形式：hadoop fs -ls /或者这么写：hdfs dfs -ls /2. 创建文件夹：hadoop fs -mkdir /test3. 在指定文件夹中创建空文件：hadoop fs -touchz /test/zs.txt文件为空时再创建一个同名的文件不会报错 4. 上传...

2018-04-03 23:31:14 7315 1

原创 hadoop2.5.1集群安装步骤

第一步：使用date命令查看时间确保四台虚拟机的时间保持同步（相差30s以内都可以接受）不同步的话需要跟同一个公用时间同步服务器同步（ntpdate命令）（安装hadoop之前要确保兼容的jdk已经安装好）第二步：设置SSH免密登录（非必须）是因为如果不配置的话在一个节点上启动hdfs时它会默认远程登录到其他节点启动，这时就会暂停需要手动输入密码才能继续免密登...

2018-04-03 01:25:20 916

原创 hadoop安装前的准备工作

第一步：首先要确定hadoop、hbase的版本如果需要同时使用整个hadoop生态圈的软件需要格外注意兼容性的问题一般不能使用最新版本的hadoop 要下载稳定版目前企业最常用的是hadoop 2.x（hadoop 0.x一般是hadoop团队测试用的）以下演示如何下载稳定版这个就是hadoop在国内稳定的镜像站选择stable2就可以看到目前最新的稳定版是hadoop 2.9.0查看hb...

2018-04-03 00:26:49 763

原创 Linux下部署Solr集群及简单操作

第一步：解压solr压缩包将solr-4.9.1\example\webapps目录下的solr.war包上传到tomcat的webapps文件夹下第二步：将需要的jar包上传到/usr/local/tomcat/webapps/solr/WEB-INF/lib目录下第三步：修改solr的配置文件设置solr homecd /optmkdir datacd datamkdir solrvim ...

2018-04-02 00:00:54 334

原创使用Java API操作Lucene

第一步：创建一个动态网站项目Lucene_Test第二步：准备好需要做索引的数据并放到合适的目录中（F:\Files\data）以及存放索引的目录（F:\Files\index）（不要使用中文目录）第三步：导入Lucene-4.9.1的jar包导入hadoop的常用包便于进行文件处理第三步：创建CreateIndex类代码如下package com.lucene;import org.ap...

2018-04-01 21:17:06 1715

转载 Lucene和Solr原理初探

Lucene是一个全文搜索框架，而不是应用产品。因此它并不像http://www.baidu.com/ 或者google Desktop那样拿来就能用，它只是提供了一种工具让你能实现这些产品。实际上lucene的功能很单一，说到底，就是你给它若干个字符串，然后它为你提供一个全文搜索服务，告诉你你要搜索的关键词出现在哪里。传统的关系型数据库搜索速度慢，性能差，其原因在于在查询数据时例如模糊查询“%l...

2018-04-01 14:02:47 221

逆天骚年的博客