2018年10月_脸ル粉嘟嘟

12月 11月 10月 09月 08月 07月 06月

原创 hadoop单机伪分布安装HBase-1.4.8详细步骤（亲测成功）

---------前提：安装hadoop、yarn、jdk1.下载解压1.1使用wget下载wget http://archive.apache.org/dist/hbase/1.4.8/hbase-1.4.8-bin.tar.gz 1.2解压到/usr/local目录下tar -zxvf hbase-1.4.8-bin.tar.gzmv hbase-1.4.8 /...

2018-10-23 21:36:10 1819

原创 java执行命令并通过libreoffice软件的方式将word转化成HTML的详细步骤解析

一、实现代码：import org.apache.commons.io.IOUtils;import java.io.File;import java.io.IOException;import java.io.InputStream;import java.util.UUID;/** * 将word文档通过java调用命令的方式转化成HTML */public ...

2018-10-30 21:12:21 2902 2

原创 Java通过Hadoop实现RPC通讯简单实例

准备pom文件中的maven依赖：jar包<dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</artifactId> <version>2.7.5&amp

2018-10-30 20:52:15 407

转载 CDH5 Hadoop集群完全离线安装步骤总结

https://www.zybuluo.com/sasaki/note/242142版本控制 @Title CDH5 Hadoop集群完全离线安装步骤总结@Version v1.0@Timestamp 2015-12-14 14:25@Author Nicholas@Mail redskirt@outlook.com 1. 硬件准备一个4节点的集群，Host对应关...

2018-10-27 21:24:30 433

原创 Phoenix安装与使用文档超详细步骤

一、描述现有hbase的查询工具有很多如：Hive，Tez，Impala，Shark/Spark，Phoenix等。今天主要记录Phoenix。 phoenix，中文译为“凤凰”，很美的名字。Phoenix是由saleforce.com开源的一个项目，后又捐给了Apache基金会。它相当于一个Java中间件，提供jdbc连接，操作hbase数据表。...

2018-10-25 21:28:37 5707 2

原创 HBASE的存储缺陷以及预分区的解决办法

【问题】 HBase中，表会被划分为1...n个Region，被托管在RegionServer中。Region二个重要的属性:StartKey与 EndKey表示这个Region维护的rowKey范围，当我们要读/写数据时，如果rowKey落在某个start-end key范围内，那么就会定位到目标region并且读/写到相关的数据当我们只是通过HBas...

2018-10-24 21:00:14 1124

原创 ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES)

问题描述：1.mysql命令直接能进去mysql2.mysql -uroot -p输入密码，报下面显示的错误.解决方案：1.首先关闭mysqlservice mysqld stop查看mysql状态service mysqld status2.设置使用命令跳过输入密码过程mysqld_safe --user=mysql --s...

2018-10-24 16:20:02 13575 2

原创 Hbase 的javaAPI基本操作用在idea上的实现

1.保证集群开启：jps有如下进程2.pom文件中的依赖<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" ...

2018-10-23 22:00:08 1471

原创使用hive脚本一键动态分区、分区又分桶以及脚本步骤详细详解（亲测成功）

一、动态分区以及从linux本地文件映射到hive表中。partitioned.sql脚本中的创造数据：mkdir /mytempcd mytempvi stu_score.txt1,zhangshan,50,12,lisi,67,13,tom,49,24,jery,48,2hive脚本内容如下------partitioned.sqlset mapre...

2018-10-19 22:21:33 1032

转载 CentOS6.5安装MySQL5.7详细教程

CentOS6.5安装MySQL5.7详细教程对上述内容的详细说明：cat /etc/yum.repos.d/mysql-community.repo 中的调整情况

2018-10-18 19:28:49 1040

原创使用Sqoop将MySQL与HDFS数据导入导出

一、拷贝mysql数据表到hdfs上1.确保mysql可以远程连接, 防火墙等已关闭或开端口, hadoop已启动, hdfs可访问（没有处于安全模式，如果处于点击这里）2.确保hdfs上不存在目标文件夹, sqoop会自动生成文件夹, 若已存在则报错，要么加上--delete-target-dir3.命令如下, 参数自行修改, mysql所在IP为192.168.203.7, 用户名密码...

2018-10-18 13:33:41 527

原创 CentOS6环境下安装sqoop详细步骤以及测试成功

1.下载sqoopwget http://mirror.bit.edu.cn/apache/sqoop/1.4.7/sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz2.解压-安装tar -zxvf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gzmv sqoop-1.4.7.bin__hadoop-2.6.0 sqoop-1.4....

2018-10-18 12:55:50 760

原创 hive2.*安装部署常见错误总结(连载)

异常一、java.lang.RuntimeExceptionException in thread "main" java.lang.RuntimeException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient...

2018-10-16 13:55:37 437

原创基于角色的访问控制（rbac）

1.在数据库中创建3张表格1.admin：用户表2.role：权限表3.admin_role:中间表（字段是两个表的主键）2.自定义注解：import java.lang.annotation.Retention;import java.lang.annotation.RetentionPolicy;/** * 注解-用于设置访问的权限人物 */@Retentio...

2018-10-15 21:17:45 394

原创 sqoop安装并配置连接数据库

1.下载sqoopwget http://mirror.bit.edu.cn/apache/sqoop/1.4.7/sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz2解压-安装tar -zxvf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz3在/etc/profile下配置sqoop的环境变量Vi /etc/profile...

2018-10-15 19:41:45 1037

原创 Mapreduce自定义数据类型

Hadoop自带的数据类型：Intwritable,LongWritable,Text,xxWritable. 某些情况下：使用自定义的数据类型方便一些（类似java中的pojo）。实现：实现writableComparable接口即可。场景例如：成绩表：由语文，数学，英文组成。上传到hdfs上score目录下一个score.txt文件--文件内容如下：想...

2018-10-15 12:38:45 546

原创 MapReduce入门（三）倒排索引

什么是倒排索引？倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值，而是由属性值来确定记录的位置，因而称为倒排索引(inverted index)。带有倒排索引的文件我们称为倒排索引文件，简称倒排文件(inverted file)。我感觉搜索引擎的原理就是倒排索引，或者正排索引...

2018-10-13 15:50:04 470

原创复合式MapReduce之ChainJob

依赖式的场景我们可以设想一下MapReduce有2个子任务job1，job2构成，job2要在job1完成之后才执行。job1：用上篇写的合并小文件job2：使用单词计数这种关系就叫复杂数据依赖关系的组合时mapreduce。hadoop为这种组合关系提供了一种执行和控制机制，hadoop通过job和jobControl类提供具体的编程方法。Job除了维护子任务的配置信息，...

2018-10-13 13:41:12 190

原创 MapReduce入门（二）合并小文件

hadoop为什么要合并小文件？小文件是指文件size小于HDFS上block大小的文件。这样的文件会给hadoop的扩展性和性能带来严重问题。首先，在HDFS中，任何block，文件或者目录在内存中均以对象的形式存储，每个对象约占150byte，如果有1000 0000个小文件，每个文件占用一个block，则namenode大约需要2G空间。如果存储1亿个文件，则nameno...

2018-10-13 13:20:10 641

转载完整教程--idea使用git进行项目管理

完整教程--idea使用git进行项目管理

2018-10-13 11:38:17 235

转载 error while loading shared libraries的解決方法

在linux下运行程序时，发现了error while loading shared libraries这种错误，一时间不知道解决办法，在网上搜索，终于解决了： ./tests: error while loading shared libraries: xxx.so.0:cannot open shared object file: No such file or directory出...

2018-10-12 18:59:28 2812

转载 message from server: "Host is not allowed to connect to this MySQL server"解决办法

报错:1130-host ... is not allowed to connect to this MySql server解决方法：1. 改表法。可能是你的帐号不允许从远程登陆，只能在localhost。这个时候只要在localhost的那台电脑，登入mysql后，更改 "mysql" 数据库里的 "user" 表里的 "host" 项，从"localhost"改称"%"mysq...

2018-10-11 12:52:12 1110

原创 MapReduce集群搭建

概述MapReduce运行在Hadoop集群上。但MapReduce是通过另外一批进程来运行的。HDFS的进程名是NameNode、SecondaryNameNode和DataNode；而MapReduce的进程名（可以通过JPS命令查看）是：ResourceManager：数据计算资源的总体管理者，地位相当于NameNode。NodeManager：执行计算的节点，地位相当于Data...

2018-10-09 22:04:59 837

转载 Hadoop参数配置超详细解析

hadoop参数配置

2018-10-09 21:17:35 308

原创 MapReduce入门（一）单词计数

一、MR计算模型的由来 MapReduce最早是由Google公司研究提出的一种面向大规模数据处理的并行计算模型和方法。Google公司设计MapReduce的初衷，主要是为了解决其搜索引擎中大规模网页数据的并行化处理。 Google公司发明了MapReduce之后，首先用其重新改写了其搜索引擎中的Web文档索引处理系统。但由于MapReduce可以普遍应用于很...

2018-10-09 20:00:44 2662

原创单机伪分布集群搭建

单机伪分布：用一个节点模拟集群好处：方便测试，开发，占用资源小搭建方法：第一步：修改slaves文件，将master（主机名）写入文件中。第二步：修改hdfs-site.xml文件，将文件的副本数改成1（副本数小于等于节点数）。<property> <name>replication</name> <value...

2018-10-08 21:27:46 264

原创 Hadoopkms加密

一、目的：保证数据安全二、简介： Hadoop Key Management Server（KMS）是一个基于HadoopKeyProvider API编写的密钥管理服务器。他提供了一个client和一个server组件，client和server之间基于HTTP协议使用REST API通信。Client是一个KeyProvider的实现，使用KMS HTTP REST API与K...

2018-10-08 21:17:19 1472

原创动态的添加和删除hadoop集群中的节点

一：添加节点步骤：1.新节点中添加账户，设置无密码登陆2.Name节点中设置到新节点的无密码登陆3.在Name节点slaves文件中添加新节点4.在所有节点/etc/hosts文件中增加新节点名5.cd /usr/local/hadoop hadoop-deamon.sh start datanode.均衡数据节点的数据 start-balamcer.sh1...

2018-10-08 20:54:22 1172

原创 Hadoop机架感知

目的：增加性能原因：同机架io快。可以两个块部署统一机架的不同机器。前提：是集群搭建开启成功1.查看机架感知：hdfs dfsadmin -printTopology2. 增加机架感知(一下都是在master（NameNode）上操作)a.修改core-site.xml,将下面内容添加进去<property><name>topolog...

2018-10-08 13:16:52 1028 1

dbf2csv.rar

dbf2csv路径下有一个【示例.txt】1.修改里面的路径位置（E:\luyz03）、2.把此文本文件的扩展名改为bat。（即将txt改为bat，此文本文件随即变为批处理文件）然后双击此文件，执行刚输入在文本文件里的命令，就会批量的将（file文件夹下面）的DBF文件转化成CSV文件。

2019-07-25

MobaXterm是Windows全能终端神器

MobaXterm提供了大量为程序员，网站管理员，IT管理员以及几乎所有需要以更简单的方式处理远程作业的用户量身打造的功能。它不仅支持各种连接和Unix命令，还可以像PuTTY一样通过SSH连接Raspberry Pi等开源硬件。

2018-10-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人