2017年07月_nana-li

11月 10月 09月 08月 07月 06月 05月 04月 03月

原创 Win下使用Eclipse开发scala程序配置（基于Hadoop2.7.3集群）

写在前面本篇博客讲的是已经在Ubuntu配置好环境，并且scala功能可以正常使用的情况下，在windows下使用eclipse开发scala程序的配置。 Ubuntu下各软件的版本： Hadoop集群： hadoop-2.7.3 Hive版本： hive-2.1.1 Spark版本： spark-2.1.0-hadoop2.7 Scala版本： scala-2.12.2 关于集群的配置

2017-07-22 20:45:05 2397

原创 Scala-2.12.2和Spark-2.1.0安装配置（基于Hadoop2.7.3集群）

Hadoop集群环境安装配置详见： Hadoop完全分布式集群安装及配置（基于虚拟机） Ubuntu镜像版本： ubuntu-16.04.2-server-amd64.iso JDK版本： jdk1.8 Hadoop版本： hadoop-2.7.3已安装的Hadoop集群中主机名和对应的IP如下：主机名 IP hadoop2m（master） 192.168.163.13

2017-07-21 10:06:28 3593 2

转载 MultipleOutputs实战：结果输出到多个文件夹或者文件中

转载链接： http://blog.csdn.NET/garychenqin/article/details/48339327（在原文基础上增加了代码分析、执行和结果）1、原理技术输出到多个文件或多个文件夹，驱动中不需要额外改变，只需要在MapClass或Reduce类中加入如下代码：private MultipleOutputs mos; public void setup(

2017-07-19 14:41:53 3347

转载 MultipleOutputs实战：结果输出到多个文件夹或者文件中

转载链接： http://blog.csdn.net/garychenqin/article/details/48339327（在原文基础上增加了代码分析、执行和结果）1、原理技术输出到多个文件或多个文件夹，驱动中不需要额外改变，只需要在MapClass或Reduce类中加入如下代码：private MultipleOutputs mos;public void set

2017-07-19 14:31:15 386 2

原创 Hadoop中自定义Partitioner，但是不同的key仍然在一个输出文件中

问题描述：在自定义Partitioner的时候，想要实现一个简单的功能：将对应的key为“short”、“right”和“long”的分别存储在3个文件中。因为默认是存储在一个文件中，所以需要自定义Partitioner。在实现功能的时候，想要通过判断key的值来决定result，代码如下： public int getPartition(Text key, Text va...

2017-07-19 09:02:06 1089 2

原创 Hive：使用beeline连接和在eclispe中连接

在mysql5.7.18安装、Hive2.1.1安装和配置（基于Hadoop2.7.3集群）中，已经讲到了mysql和hive的安装和配置。本篇博客第一部分讲的是使用beeline连接hive的方法，第二部分讲的是在eclipse中远程连接hive。准备工作1、启动hadoop服务 2、启动mysql服务使用beeline连接1、启动hiveserver2服务在根目录下，使用下面的命令启动hiv

2017-07-17 16:23:55 3177

原创 Hive启动提示端口10000被占用：SelectChannelConnector@0.0.0.0:10000: java.net.BindException

问题描述：在使用hive --service hiveserver2启动hiveserver2服务的时候，提示SelectChannelConnector@0.0.0.0:10000: java.net.BindException。问题原因：在之前已经使用这个命令启动过一次，但是由于没有启动成功，我直接用Ctrl+Z把进程终止了，再次启动，所以会提示端口被占用的情况。解决方案：使

2017-07-17 15:46:44 3366

转载 hiveserver2启动：javax.jdo.JDODataStoreException: Error executing SQL query "select "DB_ID" from "DBS""

原文链接：http://www.cnblogs.com/zwgblog/p/6063993.html启动hive-metastore和hive-server2 用beeline连接hive报错12345678[root@node04 hive]# beelineBee

2017-07-16 19:20:02 10387

原创 Hadoop完全分布式在实际中优化方案

步骤优化方案配置hosts文件用DNS代替hosts文件，可使用bind工具建立hadoop运行账号 centered 配置ssh免密码连入利用NFS实现秘钥共享下载并解压hadoop安装包配置namenode，修改site文件配置hadoop-env.sh 配置masters和slaves文件只需要在maste

2017-07-15 22:41:41 595

原创 Sqoop-1.4.6安装配置及Mysql->HDFS->Hive数据导入（基于Hadoop2.7.3）

写在前面本博客基于的环境如下： OS版本： Ubuntu16.04 Hadoop版本： Hadoop-2.7.3 Hbase版本： Hbase-1.3.1 Hive版本： Hive-2.1.1 Pig版本： Pig-0.16.0 Zookeeper版本： Zookeeper-3.4.9 Sqoop版本： Sqoop-1.4.6一、Sqoop安装1、下载下载地址： ht...

2017-07-15 18:29:36 5506 3

原创使用sqoop导入导出mysql、hdfs、hive出现的问题

问题1：java.lang.ClassNotFoundException: Class widgets not found执行的命令：sqoop import --connect jdbc:mysql://localhost:3306/hadoopguide --username root --password root --table widgets //其中，hadoopguide是数据库名称

2017-07-15 15:06:58 7332 4

原创 mysql5.7.18安装、Hive2.1.1安装和配置（基于Hadoop2.7.3集群）

注： Hive的安装对我来说比较曲折的，因为在使用hive命令测试的时候，没有发现什么问题，但是后来使用beeline连接，问题越来越多，由于自身解决能力太差，每个问题都花了好久，其中一部分问题是数据库的初始化问题，还有一部分是数据库的权限问题。因为命令行给出的错误提示比较少，要学会借助log信息查找方案，log信息默认在/tmp/${user.name}/hive.log中。一、Hadoop...

2017-07-13 21:47:40 4181 2

原创 Zookeeper3.4.9、Hbase1.3.1、Pig0.16.0安装及配置（基于Hadoop2.7.3集群）

一、Hadoop集群环境安装配置详见：Hadoop完全分布式集群安装及配置（基于虚拟机） Ubuntu镜像版本： ubuntu-16.04.2-server-amd64.iso JDK版本： jdk1.8 hadoop版本： hadoop-2.7.3 启动集群，进行下面Zookeeper3.4.9、Hbase1.3.1安装及配置。 Hadoop版本对应可用的Hbase版本参见： h...

2017-07-12 20:24:44 5739 1

原创 Hadoop开发入门踩过的坑（持续更新）

1、将文件从本地上传到HDFS中报错错误描述：将本地文件使用代码上传至HDFS中出现错误提示：“Exception in thread "main" java.lang.IllegalArgumentException: Wrong FS: hdfs://192.168.163.131:9000/local, expected: file:///”，如下图：源代码：impo

2017-07-11 16:33:15 1484

原创 Eclipse中使用Hadoop集群模式开发配置及简单程序示例（Windows下）

一、JDK安装、Hadoop的安装及集群模式配置（Linux虚拟机上集群的安装配置）具体详见博客：Hadoop完全分布式集群安装及配置（基于虚拟机）由于在使用hadoop-2.8.0配置的时候，hdfs总是出现错误，使用了各种方法也没能解决，所以这里使用hadoop-2.7.3二、Eclipse、Hadoop安装（Win下）1、Eclipse使用的是eclipse-jee-neon-3-win3

2017-07-10 20:42:18 3449

原创 Hadoop完全分布式集群安装及配置（基于虚拟机）

写在前面因为之前Hadoop伪分布式的安装（参见：Hadoop安装以及伪分布模式搭建过程）是在VirtualBox上安装了Ubuntu虚拟机，所以这次在开始的时候也是在VirtualBox上安装了3个Ubuntu虚拟机，但是3个虚拟机打开之后发现3者的IP地址是一样的（通过ifconfig命令查看IP地址），我尝试着通过设置静态IP、更改网络模式等方法都没有成功，不能够做到3个虚拟机之间互联。所以这

2017-07-04 21:20:25 19829 11

原创使用Hadoop命令行执行jar包详解（生成jar、将文件上传到dfs、执行命令、下载dfs文件至本地）

在之前一篇：Eclipse中使用Hadoop单机模式开发配置及简单程序示例，我们讲了如何在eclipse配置文件信息以及如何执行Map/Reduce程序，本篇基于这篇文章的代码总结一下使用hadoop命令行执行jar包的流程，主要包括生成jar、将本地文件上传至dfs文件系统中，执行jar包。一、Eclipse中生成jar包使用Eclipse中使用Hadoop单机模式开发配置及简单程序示例的Max

2017-07-01 11:01:43 60721 2

ATT&MIT;&YALE;&ORL;人脸库

ATT&MIT;&YALE;&ORL;人脸库，都是从网络上下载的资源，仅供学习，侵权立删

2017-10-10

mysql-connector-java-5.1.22

MYSQL连接器，使用不同的客户端程序连接mysql需要用的到驱动程序

2016-01-27

正交设计助手

这是一款绿色软件，不需要安装，解压后直接使用，可用于设计测试用例，

2015-04-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人