2016年05月_young_so_nice

09月 08月 07月 06月 05月 04月 03月

原创最新版scala2.11.8与spark1.6.1一步到位安装

一，scala安装：先到官网下载一个scala的压缩包，它没有过多的要求，然后在Linux下按照如下步骤操作： 1，解压包： hadoop@master:/mysoftwaretar−zxvfscala−2.11.8.tgz2，配置环境变量（我在两份文件里面都配了）：hadoop@master: tar -zxvf scala-2.11.8.tgz 2

2016-05-31 20:55:30 8077

原创 2.0.0hive整合1.2.1hbase的api遇到的连接问题

问题： org.apache.hive.service.cli.HiveSQLException: Failed to open new session: java.lang.RuntimeException: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.authorize.AuthorizationExcepti

2016-05-29 13:34:13 808

原创 hive2.0版本整合hbase1.2.1

开始在整合hive和hbase的时候老是报错，错误大概就是分两类： 1，code=1. 2，code=2. 在网上找了好多资料，发现原来是hive2.0以下的版本，会出现兼容问题，所以将hive版本更新到2.0就能解决以上问题。一，首先hbase没有表的情况下，可以在hive的密令行写： CREATE TABLE hbase_table_1(key int, value string)

2016-05-28 20:51:28 1978

原创 2.x的版本hive的api调用增加，删除，添加数据

hivesql语句其实sql差不多，在api调用时也简单用execute（）或executeQuery（）即可，不过在创建表时，注意指定数据的读入格式，否则就不能插入数据。代码展示：import java.sql.Connection;import java.sql.DriverManager;import java.sql.ResultSet;import java.sql.SQLExc

2016-05-26 21:56:22 1281

原创 Linux下的Hive与Mysql安装

一，安装MySQL sudo apt-get install mysql-server mysql-client 1). 建立数据库hive， create database hive; 2). 创建用户hive create user ‘hive’@’%’ identified by ‘hive’; 3).创建hive用户,并授权 grant all on hive.* t

2016-05-22 00:40:25 3980

原创 Hbase索引的建立实现代码

Hbase索引主要是用于提高Hbase中表数据的访问速度，有效的避免全表扫描。简单的讲：将经常被查询的列作为行健，行健作为列键重新构造一张表，即可实现根据列值快速地定位相关数据所在的行，这就是索引。下面是图片展示：我自己写了实现代码不过和这图还是有不同，我定义的列是name,sex,tel，这些都不是重点啦。下面给大家讲讲具体的过程： 1，在tableMap过程：我们拿

2016-05-20 21:56:36 2175

原创 Hbase数据解析mapreduce过程及遇到的问题

本次介绍的是将hbase中存的数据，用mapreduce解析。一，hbase中的数据结构：二，分析map过程：因为这里是对hbase中的表进行解析，所以map必须是继承TableMapper类来对数据进行解析。注意：输入的key value必须是ImmutableBytesWritable和Result。输出的就可以自己定义了。 ImmutableByt

2016-05-18 19:44:42 1834

原创 hadoop的外部访问连接问题

一，问题： Connection refused: no further information Exception in thread “main” java.net.ConnectException: Call From WIN-20140221JLA/192.168.111.1 to master:8020 failed on connection exception: java.

2016-05-15 15:33:30 3547

原创 Hadoop的nodemanager老是启动就挂掉解决方法以及如何查看hadoop日志

在启动hadoop后nodemanager，启动之后就挂掉了，今天找到解决方法了。 1，首先我们可以通过查看日志文件，发现原因： 2，因为是nodemanager出问题，所以就看它的日志： 3，查看信息： 4，做出对应的修改：

2016-05-15 14:36:08 11862 2

原创 Hbase遇到的问题Unable to move table from temp重新格式化hbase

一，问题：Unable to move table from temp=hdfs://master:9000/hbase/.tmp/data/default/scores2 to hbase root=hdfs://master:9000/hbase/data/default/scores2at sun.reflect.NativeConstructorAccessorImpl.newInstan

2016-05-14 20:37:08 3605 2

原创 Hbase在连接api时遇到的问题

一，首先请先看图，是不是遇到了这样的问题：二，解决方法：这是因为连接不上你的虚拟机，或是你在运行时没有将hadoop,zookeeper,hbase，其中的一个启动好。如果是第一种情况：就是外部的机器找不到，你虚拟机主机名对应的映射。所以你要找到下面的目录，指定你虚拟机主机名的映射。

2016-05-14 13:02:36 1510

原创 Hbase的API入门的增加，查询，删除数据详细解读和代码展示

以下是Hbase的入门详细解读：一，从外部的连接上hbase: 1,首先获取hbase的配置信息—-Configuration。 2，给Configuration设置你的zookeeper以及虚拟机的地址。 3，通过连接工厂ConnectionFactory，创建连接。 4，通过连接拿到管理员即admin用来后面操作hbase。二，建立表： 1，首先可以通过TableName创建表名对

2016-05-14 12:51:35 4857 2

原创 Hbase简介及常用命令

Hbase是运行在Hadoop上的NoSQL数据库，它是一个分布式的和可扩展的大数据仓库，也就是说HBase能够利用HDFS的分布式处理模式，并从Hadoop的MapReduce程序模型中获益。这意味着在一组商业硬件上存储许多具有数十亿行和上百万列的大表。除去Hadoop的优势，HBase本身就是十分强大的数据库，它能够融合key/value存储模式带来实时查询的能力，

2016-05-12 16:36:44 559

原创 zookeeper简介和常用的命令

ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件，提供的功能包括：配置维护、域名服务、分布式同步、组服务等。那么Zookeeper能作什么事情呢，简单的例子：假设我们有20个搜索引擎的服务器(每个负责总索引中的

2016-05-12 15:20:17 382

原创 hbase集群安装（zookeeper和hbase安装）

一，zookeeper安装。 1，将桌面上的zookeeper压缩包移动到指定的文件夹 2，解压该包，并查看解压后它的目录列表： 3，进入到conf目录下先复制一份zoo.cfg文件，再修改zoo.cfg文件注意：因为我这里只有一台机器，即主从一体，如果是多台的应该这么配： 4，创建datadir指定目录data和创建myid文件: 如果配置多台丛机，还要增加以下信息：

2016-05-11 21:35:55 1544

原创 Hadoop之仿写搜索引擎

这篇文章，可能比较长，如果你觉得写得好可以把它看完，希望对你有所帮助。写搜索引擎先整理下思路大致分为三步：从网上爬取数据，对拿到的数据进行整理即分词，然后通过关键字匹配拿到数据。我会详细介绍这三步。先讲讲我要实现的效果，从网上拿到标题包括对应的地址，对标题进行分词，通过输入的关键字匹配分词，返回对应的网址。一，爬取数据：开始的时候对网站进行的一个垂直爬取，拿到它的个标题，A标

2016-05-11 17:00:19 7922

原创 lucene的建立索引，搜索，中文分词

Lucene是apache软件基金会4 jakarta项目组的一个子项目，是一个开放源代码的全文检索引擎工具包。现在最新的lucene已经更新到6.0版本了。但是这个最新版，需要适配jdk1.80以上的版本。所以我这里用的5.5.1的版本的，它对jdk没有这么高的要求，比较适应开发。下面分三步简单的将lucene的建立索引，搜索，中文分词，介绍给大家。用到的包：一，建立索引：

2016-05-11 12:17:02 5319

原创 Hadoop之倒排索引

倒排索引：以前的是先找到文件位置—>找到文件—->找到单词现在：根据单词，返回它在哪个文件中出现过，而且频率是多少的结果。这就像百度里的搜索，你输入一个关键字，那么百度引擎就迅速的在它的服务器里找到有该关键字的文件，并根据频率和其他一些策略（如页面点击投票率）等来给你返回结果。这个过程中，倒排索引就起到很关键的作用将多个文本的单

2016-05-07 23:17:52 3427

原创 Hadoop之多行读取数据

一，需求：在map执行前，即setInputFormatClass过程，会进行数据的读入，默认的是每次读入一行数据，进行计算。现在需要改成每次读入两行数据并且合并结果输出。二，思路及解决方法：建议先看看他们的源码，理解思路。我这里是采用的TextInputFormat.class的输入格式。它的key是每一行的偏移位置，value就是它这一行的内容。其中有创建LineRecordRead

2016-05-06 20:17:24 7666

原创 Hadoop自定义数据类型和输入格式

Hadoop自定义数据类型和输入格式一，自定义一个数据类型：User类该类实现WritableComparable接口，并且带三个属性：name，sex，age 重写其write（），readFields（），compareTo（）方法，分别对应写出文件格式，读文件的格式，和比较该对象的值设置其属性的get()与set()方法。

2016-05-03 19:47:47 3129 2