
Hadoop生态圈学习
记录学习Hadoop生态圈组件的学习过程、遇到的问题及解决办法。
GYT0313
邮箱:guyongtao@qq.com
-
原创 CDH-6.2在CentOS7安装虚拟机集群(超详细笔记,可虚拟机无网络安装)
个节点服务器:sudo chmod 777 /etc/sysctl.confsudo sysctl -w vm.swappiness=10sudo echo "vm.swappiness=10" >> /etc/sysctl.confsudo chmod 777 /sys/kernel/mm/transparent_hugepage/defrag sudo chmod 77...2019-10-24 19:28:59218
0
-
原创 Hadoop集群安装Pig
下载压缩包:http://pig.apache.org/releases.html解压:tar -zxvf pig-0.17.0.tar.gz -C ~/配置:在 ~/.bashrc 文件末尾添加,其中HADOOP_HOME为Hadoop安装路径,如HADOOP_HOME = /usr/local/hadoop:export PIG_HOME=/home/hadoop/pig-0.1...2018-12-01 10:45:50254
0
-
原创 Pig-使用java实现用户自定义函数编译pig.jar包错误
从SVN库中导出代码创建本地的pig.jar文件时报错:创建命令:svn co http://svn.apache.org/repos/asf/pig/trunkcd trunkant执行 ant 时报如下错误:BUILD FAILED/home/hadoop/pig-0.17.0/logs/file/trunk/build.xml:812: The following error...2018-12-01 10:36:33310
0
-
原创 Pig执行命令时提交job发生几乎死循环的报错
在Pig提交任务时,发生如下错误:2018-11-29 09:43:07,701 [main] INFO org.apache.hadoop.ipc.Client - Retrying connect to server: 0.0.0.0/0.0.0.0:10020. Already tried 0 time(s); retry policy is RetryUpToMaximumCountW...2018-11-29 09:48:32219
1
-
原创 Sqoop相关功能操作示例
安装Sqoop:https://blog.csdn.net/qq_38038143/article/details/847280241.查看sqoop命令帮助hadoop@master:~$ sqoop help18/12/05 17:40:01 INFO sqoop.Sqoop: Running Sqoop version: 1.4.7usage: sqoop COMMAND [ARGS...2018-12-14 16:48:54399
0
-
原创 Sqoop导入数据到Hive报错,java.lang.ClassNotFoundException: org.apache.hadoop.hive.conf.HiveConf
执行命令,如:sqoop import --connect jdbc:mysql://master:3306/sqoopDB --table employees --username bear --password 123456 --hive-import -m 1报如下错误:18/12/05 20:13:31 INFO hive.HiveImport: Loading uploaded...2018-12-05 20:27:422625
1
-
原创 Sqoop1安装-mysql测试
1. 下载安装包地址:http://www.apache.org/dyn/closer.lua/sqoop/解压:tar -zxvf soft/sqoop/sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz -C ~/mv sqoop-1.4.7.bin__hadoop-2.6.0/ sqoop-1.4.72. 配置vim ~/.bashrc,添加...2018-12-02 21:16:37577
0
-
原创 Sqoop连接mysql报错-已解决
报错使用连接测试命令:sqoop list-databases --connect jdbc:mysql://master:3306/ --username bee -P报如下错误:18/12/02 20:11:44 ERROR manager.CatalogQueryManager: Failed to list databasescom.mysql.cj.jdbc.exceptio...2018-12-02 20:19:345994
3
-
原创 zookeeper集群安装、配置、简单Shell操作
1.下载http://apache.fayea.com/zookeeper/这里选择 stable 目录下的版本,下载并上传到 Linux。解压压缩包到 /usr/local/ 目录(注意权限问题),并修改名称为 zk:在 ~/.bashrc 文件末尾添加:export ZOOKEEPER_HOME=/usr/local/zkexport PATH=$PATH:$ZOOKEEPER...2018-11-18 19:57:09119
0
-
原创 Hive 安装-使用HDFS文件系统
1.下载、解压Hive下载网站:http://www.apache.org/dyn/closer.cgi/hive/百度网盘:链接:https://pan.baidu.com/s/16QzSgxa_VLnJ7ksnLUrtEw提取码:ef9b这里下载的是2.3.4 版本。解压到 /home/hadoop/目,并修改名称:tar -zxvf apache-hive-2.3.4-bin...2018-11-24 12:02:062572
0
-
原创 schematool -dbType mysql -initSchema 失败
schematool -dbType mysql -initSchemahadoop@master:~$ schematool -dbType mysql -initSchemaSLF4J: Class path contains multiple SLF4J bindings.SLF4J: Found binding in [jar:file:/home/hadoop/hive-2.3.4...2018-11-21 22:40:082048
0
-
原创 Sqoop从MySQL导入数据到HBase使用root用户失败
报错ERROR manager.SqlManager: Error executing statement: java.sql.SQLException: Access denied for user 'root'@'master' (using password: YES)java.sql.SQLException: Access denied for user 'root'@'maste...2018-12-25 18:36:54278
0
-
原创 四种方法解决 -- HBase启动shell报错--ERROR: Can't get master address from ZooKeeper; znode data == null
1.报错如下:hbase(main):001:0> listERROR: Can't get master address from ZooKeeper; znode data == nullHere is some help for this command:List all tables in hbase. Optional regular expression parame...2018-12-18 10:55:163795
6
-
原创 HBase- ddl(表操作)、dml(记录操作)的基本语法操作
1. ddl 操作主要针对表为对象进行操作,如创建表、修改表、删除表等。设计表 students 作为演示:students创建表hbase(main):091:0> create 'students','stu_id','basic_info','school_info'0 row(s) in 2.3350 seconds=> Hbase::Table - st...2018-11-17 17:59:501018
0
-
原创 运行MapReduce程序报错--java.lang.Exception: java.lang.RuntimeException: java.lang.NoSuchMethodException
java.lang.Exception: java.lang.RuntimeException: java.lang.NoSuchMethodException: com.gyt.collaborativeFiltering.CollaborativeFilteringByUser$ColFilterMapper.<init>() at org.apache.hadoop.mapre...2018-12-22 09:49:131223
0
-
原创 MapReduce练习 - 倒排索引
问题描述读取多个文件的内容,计算内容在那个文件有出现,并且计算其出现的次数(权重),如下:已有三个文件,其内容如下:经过处理,其处理结果如下:以第一行为例: 表示在file1.txt,file2.txt各包含1个 Hadoop。准备输入文件:上传到 hdfs://master:9000/data/indvertedIndex2:代码思路:在Mapper端:根据输入内...2018-12-06 19:12:09172
0
-
原创 MarReduce小练习 - 单表关联(使用标识符)
题意:根据儿子、父母关系,输出孙子、爷奶关系:输入:                &2018-12-04 12:39:0294
0
-
原创 MarReduce小练习 - 多表关联(使用静态变量)
题意:输入文件1:地址编号-地址输入文件2:公司-地址编号根据两个输入文件,输出公司所在的地址。格式如下:1.输入文件1:address.txt:1 Beijing2 Guangzhou3 Shenzhen4 Xian2.输入文件2:factory.txt:Beijing Red Star 1Shenzhen Thunder 3Gu...2018-11-30 18:10:1883
0
-
原创 MarReduce小练习 - 单表关联(使用静态变量)
题意:根据儿子、父母关系,输出孙子、爷奶关系:输入:2018-11-30 10:18:51108
0
-
原创 VirtualBox配置多台Linux实现互相通信(dhcp自动获取)
1. 配置VirtualBox在Virtualbox界面,选择 管理-> 全局设定,添加如下图:设置Linux网卡:启动Linux。2. 配置网卡文件vim /etc/sysconfig/network-scripts/ifcfg-eth0内容如下:重启网络:service nework restart查看IP:同理,其他Linux机器一样如上配置,查询如下:...2018-11-28 20:58:28595
0
-
原创 Hadoop-(wordcount升级版)分析日志统计IP地址来源
1. 前言由于隐私问题,这里不提供日志,可自行准备或随机生成。2. 分析分析日志统计出IP地址来源,重点无非是IP地址,如下图:通过正则表达式提取合理IP地址:正则表达式在线测试网站:http://tool.oschina.net/regex/如下图:将提取出的IP地址查询其地址来源批量IP地址查询网站:http://ip.soshoulu.com/如下图:导出...2018-11-21 20:20:38357
0
-
原创 HBase-启动HBase后,HMaster自动消失
报错分析执行启动命令:start-hbase.sh 后,查看节点的jps,确实能够查看到HMaster启动,但是几秒后再次查看,HMaster已经消失。在网上查找了很多方法,如:文件权限问题(博主尝试了Hadoop、HBase、JDK安装目录的权限皆修改为Hadoop用户)域名解析(即节点之间不能ping通,但是博主的节点能够互相ping通)hbase-site.xml,zookeep...2018-11-17 14:22:152178
0
-
原创 HDFS中JavaAPI对文件的上传、查询
Ubuntu + Hadoop2.7.3集群搭建:https://blog.csdn.net/qq_38038143/article/details/83050840Ubuntu配置Eclipse + Hadoop环境:https://blog.csdn.net/qq_38038143/article/details/83412196操作环境:Hadoop集群,4个DataNode。1.创...2018-10-26 20:43:501653
0
-
原创 协同过滤算法基于用户--使用MapReduce框架实现为用户推荐电影
package com.gyt.collaborativeFiltering;import java.io.BufferedReader;import java.io.File;import java.io.FileOutputStream;import java.io.FileReader;import java.io.IOException;import java....2018-12-20 20:25:01531
0
-
原创 JavaWeb-文件上传下载-可基于文件内容查询文件(MySQL+Servlet+Hadoop)
hdfs dfs -mkdir -p /data/fileSmartUploadhdfs dfs -mkdir -p /output/2018-12-13 21:44:02996
2
-
原创 Ubuntu配置Eclipse + Hadoop环境
Hadoop伪分布搭建:Hadoop集群搭建:本次环境为Hadoop集群。1. 官网下载linux版eclipse官网:https://www.eclipse.org/downloads/packages/安装Hadoop-Eclipse-Plugin插件:2. 配置2.1解压Eclipse:tar -zxvf eclipse-committers-2018-09-linux-gt...2018-10-26 11:19:46235
0
-
原创 几个小程序巩固、练习 MapRedcue 框架基础
1. wordcount词频统计2. 文字去重3. 统计成绩平均数4. 单表关联5. IP地址来源统计2018-11-27 12:13:19124
0
-
原创 安装HBase--单节点、伪分布式、完全分布式安装
1.下载HBase链接:http://mirrors.cnnic.cn/apache/hbase/选择 stable 目录,下载 bin 文件:在Linux上解压,博客中解压在/home/hadoop 目录下:进入解压目录:2.修改配置修改JDK路径、启用HBase自带zookeepervim conf/hbase-env.shJDK路径按照安装路径配置:启用自带z...2018-11-15 13:28:52259
0
-
原创 Hadoop--使用JavaAPI对文件解压、压缩
GitHub:https://github.com/GYT0313/Hadoop-JavaAPI-Code/tree/master/chapter5/src/org/gyt/hadoopCompression前言本次示例做了如下工作:将 bzip2 格式解压将文件压缩为 gzip 格式1. 上传 bzip2准备压缩文件:上传文件到 HDFS(注:/data 目录已存在):...2018-11-09 16:11:041060
0
-
原创 Hadoop--使用JavaAPI编写wordcount的jar包
GitHub:1.创建项目创建三个类:Mapper、Reducer、Main驱动类(需要导入 jar包)2.代码WordMapper.java:package wordcount;import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.io.IntWrit...2018-11-09 12:23:002220
0
-
原创 DFS Locations没有在左侧显示出来
配置好Map/Reduce 后,第二次打开,点击上次的配置,报如下错误:并且,eclipse左侧没有显示 DFS Locations:起初以为是报错才没有显示 DFS Locations。尝试了很多方法,也没有解决报错,始终点击将报错。最后无意中,发现只需要点击:如下左侧 DFS Locations出现:不过到此还没有理解报错的原因。完!...2018-10-30 20:05:064235
0
-
原创 ant 编译 hadoop-eclipse-plugin.jar包
1.安装 antsudo apt-get install ant测试:2.下载 hadoop已配置 hadoop-2.7.3https://download.csdn.net/download/qq_38038143/10752615未配置,源码包https://download.csdn.net/download/qq_38038143/107526963.编译目录:...2018-10-30 11:39:20149
0
-
原创 Ubuntu+hadoop集群验证
1.集群搭建参考:https://blog.csdn.net/qq_38038143/article/details/83050840在已搭建的集群中,修改配置文件yarn-site.xml:与参考文章不同的原因为:执行运算命令时命令卡住即不能进一步执行。<configuration><!-- Site specific YARN configuration prop...2018-10-23 19:48:02139
0
-
原创 Ubuntu + Hadoop2.7.3伪分布搭建
1.在virtualbox上设置共享目录将 JDK 和 hadoop 压缩包上传到Ubuntu:参考链接:https://blog.csdn.net/qq_38038143/article/details/830178772.JDK安装在 /usr/local/ 下创建目录 java,将 JDK 解压到 java 目录,执行命令:sudo tar -zxvf /usr/local/...2018-10-18 12:49:51447
0
-
原创 Ubuntu + Hadoop2.7.3集群搭建
1.修改/etc/hosts文件,IP映射内容如下:注:10.13.7.72为master节点IP,10.13.7.71为slave节点IP。(根据自己的IP地址设置)2.修改master配置文件修改slaves,内容如下:slave修改hdfs-site.xml,内容如下:&amp;amp;amp;amp;amp;lt;configuration&amp;amp;amp;amp;amp;gt; &amp;amp;am2018-10-14 21:05:10343
0
-
原创 Hadoop搭建之VirtualBox+Redhat访问外网、远程登录、文件传输
1. 准备工具VirtualBoxRedhat-6.6(其他版本也可以)2. VirtualBox设置在设置里为Redhat添加两个网卡:网卡的连接方式分别为:网卡1-NAT --&amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;gt;虚拟机借助主机能够访问网络网卡2-桥接 --&amp;a2018-09-18 16:43:33726
0
-
原创 VMware-14.1.2 +CentOS7 + Hadoop-2.8.4 搭建集群环境,Windows下使用IDEA开发
前言如果你的电脑内存为8G,建议每台虚拟机给1G内存。推荐至少内存大于等于12G,每台虚拟机2G。1. 下载链接:https://pan.baidu.com/s/1cDTws1tfjRpCt8pGC8Szfw提取码:xq4q2. 安装软件(已安装可跳过直接看第3点,需要注意关闭防火墙)VMware(许可证中含有密钥)、XShell、IDEA的安装省略。安装CentOS-...2020-01-01 14:33:52192
0