![](https://img-blog.csdnimg.cn/20190408111143935.jpeg?x-oss-process=image/resize,m_fixed,h_224,w_224)
Hadoop生态圈学习
文章平均质量分 52
记录学习Hadoop生态圈组件的学习过程、遇到的问题及解决办法。
GYT0313
邮箱:guyongtao@qq.com
展开
-
CDH-6.2在CentOS7安装虚拟机集群(超详细笔记,可虚拟机无网络安装)
个节点服务器:sudo chmod 777 /etc/sysctl.confsudo sysctl -w vm.swappiness=10sudo echo "vm.swappiness=10" >> /etc/sysctl.confsudo chmod 777 /sys/kernel/mm/transparent_hugepage/defrag sudo chmod 77...原创 2019-10-24 19:28:59 · 752 阅读 · 0 评论 -
Hadoop集群安装Pig
下载压缩包:http://pig.apache.org/releases.html解压:tar -zxvf pig-0.17.0.tar.gz -C ~/配置:在 ~/.bashrc 文件末尾添加,其中HADOOP_HOME为Hadoop安装路径,如HADOOP_HOME = /usr/local/hadoop:export PIG_HOME=/home/hadoop/pig-0.1...原创 2018-12-01 10:45:50 · 447 阅读 · 0 评论 -
Pig-使用java实现用户自定义函数编译pig.jar包错误
从SVN库中导出代码创建本地的pig.jar文件时报错:创建命令:svn co http://svn.apache.org/repos/asf/pig/trunkcd trunkant执行 ant 时报如下错误:BUILD FAILED/home/hadoop/pig-0.17.0/logs/file/trunk/build.xml:812: The following error...原创 2018-12-01 10:36:33 · 457 阅读 · 0 评论 -
Pig执行命令时提交job发生几乎死循环的报错
在Pig提交任务时,发生如下错误:2018-11-29 09:43:07,701 [main] INFO org.apache.hadoop.ipc.Client - Retrying connect to server: 0.0.0.0/0.0.0.0:10020. Already tried 0 time(s); retry policy is RetryUpToMaximumCountW...原创 2018-11-29 09:48:32 · 470 阅读 · 1 评论 -
Sqoop相关功能操作示例
安装Sqoop:https://blog.csdn.net/qq_38038143/article/details/847280241.查看sqoop命令帮助hadoop@master:~$ sqoop help18/12/05 17:40:01 INFO sqoop.Sqoop: Running Sqoop version: 1.4.7usage: sqoop COMMAND [ARGS...原创 2018-12-14 16:48:54 · 764 阅读 · 0 评论 -
Sqoop导入数据到Hive报错,java.lang.ClassNotFoundException: org.apache.hadoop.hive.conf.HiveConf
执行命令,如:sqoop import --connect jdbc:mysql://master:3306/sqoopDB --table employees --username bear --password 123456 --hive-import -m 1报如下错误:18/12/05 20:13:31 INFO hive.HiveImport: Loading uploaded...原创 2018-12-05 20:27:42 · 4105 阅读 · 2 评论 -
Sqoop1安装-mysql测试
1. 下载安装包地址:http://www.apache.org/dyn/closer.lua/sqoop/解压:tar -zxvf soft/sqoop/sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz -C ~/mv sqoop-1.4.7.bin__hadoop-2.6.0/ sqoop-1.4.72. 配置vim ~/.bashrc,添加...原创 2018-12-02 21:16:37 · 845 阅读 · 0 评论 -
Sqoop连接mysql报错-已解决
报错使用连接测试命令:sqoop list-databases --connect jdbc:mysql://master:3306/ --username bee -P报如下错误:18/12/02 20:11:44 ERROR manager.CatalogQueryManager: Failed to list databasescom.mysql.cj.jdbc.exceptio...原创 2018-12-02 20:19:34 · 13584 阅读 · 9 评论 -
zookeeper集群安装、配置、简单Shell操作
1.下载http://apache.fayea.com/zookeeper/这里选择 stable 目录下的版本,下载并上传到 Linux。解压压缩包到 /usr/local/ 目录(注意权限问题),并修改名称为 zk:在 ~/.bashrc 文件末尾添加:export ZOOKEEPER_HOME=/usr/local/zkexport PATH=$PATH:$ZOOKEEPER...原创 2018-11-18 19:57:09 · 286 阅读 · 0 评论 -
Hive 安装-使用HDFS文件系统
1.下载、解压Hive下载网站:http://www.apache.org/dyn/closer.cgi/hive/百度网盘:链接:https://pan.baidu.com/s/16QzSgxa_VLnJ7ksnLUrtEw提取码:ef9b这里下载的是2.3.4 版本。解压到 /home/hadoop/目,并修改名称:tar -zxvf apache-hive-2.3.4-bin...原创 2018-11-24 12:02:06 · 5748 阅读 · 1 评论 -
schematool -dbType mysql -initSchema 失败
schematool -dbType mysql -initSchemahadoop@master:~$ schematool -dbType mysql -initSchemaSLF4J: Class path contains multiple SLF4J bindings.SLF4J: Found binding in [jar:file:/home/hadoop/hive-2.3.4...原创 2018-11-21 22:40:08 · 5179 阅读 · 5 评论 -
Sqoop从MySQL导入数据到HBase使用root用户失败
报错ERROR manager.SqlManager: Error executing statement: java.sql.SQLException: Access denied for user 'root'@'master' (using password: YES)java.sql.SQLException: Access denied for user 'root'@'maste...原创 2018-12-25 18:36:54 · 514 阅读 · 0 评论 -
四种方法解决 -- HBase启动shell报错--ERROR: Can't get master address from ZooKeeper; znode data == null
1.报错如下:hbase(main):001:0> listERROR: Can't get master address from ZooKeeper; znode data == nullHere is some help for this command:List all tables in hbase. Optional regular expression parame...原创 2018-12-18 10:55:16 · 6195 阅读 · 6 评论 -
HBase- ddl(表操作)、dml(记录操作)的基本语法操作
1. ddl 操作主要针对表为对象进行操作,如创建表、修改表、删除表等。设计表 students 作为演示:students创建表hbase(main):091:0> create 'students','stu_id','basic_info','school_info'0 row(s) in 2.3350 seconds=> Hbase::Table - st...原创 2018-11-17 17:59:50 · 2679 阅读 · 0 评论 -
运行MapReduce程序报错--java.lang.Exception: java.lang.RuntimeException: java.lang.NoSuchMethodException
java.lang.Exception: java.lang.RuntimeException: java.lang.NoSuchMethodException: com.gyt.collaborativeFiltering.CollaborativeFilteringByUser$ColFilterMapper.<init>() at org.apache.hadoop.mapre...原创 2018-12-22 09:49:13 · 2204 阅读 · 0 评论 -
MapReduce练习 - 倒排索引
问题描述读取多个文件的内容,计算内容在那个文件有出现,并且计算其出现的次数(权重),如下:已有三个文件,其内容如下:经过处理,其处理结果如下:以第一行为例: 表示在file1.txt,file2.txt各包含1个 Hadoop。准备输入文件:上传到 hdfs://master:9000/data/indvertedIndex2:代码思路:在Mapper端:根据输入内...原创 2018-12-06 19:12:09 · 339 阅读 · 0 评论 -
MarReduce小练习 - 单表关联(使用标识符)
题意:根据儿子、父母关系,输出孙子、爷奶关系:输入:                &原创 2018-12-04 12:39:02 · 240 阅读 · 0 评论 -
MarReduce小练习 - 多表关联(使用静态变量)
题意:输入文件1:地址编号-地址输入文件2:公司-地址编号根据两个输入文件,输出公司所在的地址。格式如下:1.输入文件1:address.txt:1 Beijing2 Guangzhou3 Shenzhen4 Xian2.输入文件2:factory.txt:Beijing Red Star 1Shenzhen Thunder 3Gu...原创 2018-11-30 18:10:18 · 208 阅读 · 0 评论 -
MarReduce小练习 - 单表关联(使用静态变量)
题意:根据儿子、父母关系,输出孙子、爷奶关系:输入:原创 2018-11-30 10:18:51 · 255 阅读 · 0 评论 -
VirtualBox配置多台Linux实现互相通信(dhcp自动获取)
1. 配置VirtualBox在Virtualbox界面,选择 管理-> 全局设定,添加如下图:设置Linux网卡:启动Linux。2. 配置网卡文件vim /etc/sysconfig/network-scripts/ifcfg-eth0内容如下:重启网络:service nework restart查看IP:同理,其他Linux机器一样如上配置,查询如下:...原创 2018-11-28 20:58:28 · 913 阅读 · 0 评论 -
Hadoop-(wordcount升级版)分析日志统计IP地址来源
1. 前言由于隐私问题,这里不提供日志,可自行准备或随机生成。2. 分析分析日志统计出IP地址来源,重点无非是IP地址,如下图:通过正则表达式提取合理IP地址:正则表达式在线测试网站:http://tool.oschina.net/regex/如下图:将提取出的IP地址查询其地址来源批量IP地址查询网站:http://ip.soshoulu.com/如下图:导出...原创 2018-11-21 20:20:38 · 592 阅读 · 0 评论 -
HBase-启动HBase后,HMaster自动消失
报错分析执行启动命令:start-hbase.sh 后,查看节点的jps,确实能够查看到HMaster启动,但是几秒后再次查看,HMaster已经消失。在网上查找了很多方法,如:文件权限问题(博主尝试了Hadoop、HBase、JDK安装目录的权限皆修改为Hadoop用户)域名解析(即节点之间不能ping通,但是博主的节点能够互相ping通)hbase-site.xml,zookeep...原创 2018-11-17 14:22:15 · 7606 阅读 · 0 评论 -
HDFS中JavaAPI对文件的上传、查询
Ubuntu + Hadoop2.7.3集群搭建:https://blog.csdn.net/qq_38038143/article/details/83050840Ubuntu配置Eclipse + Hadoop环境:https://blog.csdn.net/qq_38038143/article/details/83412196操作环境:Hadoop集群,4个DataNode。1.创...原创 2018-10-26 20:43:50 · 2311 阅读 · 0 评论 -
协同过滤算法基于用户--使用MapReduce框架实现为用户推荐电影
package com.gyt.collaborativeFiltering;import java.io.BufferedReader;import java.io.File;import java.io.FileOutputStream;import java.io.FileReader;import java.io.IOException;import java....原创 2018-12-20 20:25:01 · 2677 阅读 · 3 评论 -
JavaWeb-文件上传下载-可基于文件内容查询文件(MySQL+Servlet+Hadoop)
hdfs dfs -mkdir -p /data/fileSmartUploadhdfs dfs -mkdir -p /output/原创 2018-12-13 21:44:02 · 1325 阅读 · 2 评论 -
Ubuntu配置Eclipse + Hadoop环境
Hadoop伪分布搭建:Hadoop集群搭建:本次环境为Hadoop集群。1. 官网下载linux版eclipse官网:https://www.eclipse.org/downloads/packages/安装Hadoop-Eclipse-Plugin插件:2. 配置2.1解压Eclipse:tar -zxvf eclipse-committers-2018-09-linux-gt...原创 2018-10-26 11:19:46 · 822 阅读 · 0 评论 -
几个小程序巩固、练习 MapRedcue 框架基础
1. wordcount词频统计2. 文字去重3. 统计成绩平均数4. 单表关联5. IP地址来源统计原创 2018-11-27 12:13:19 · 231 阅读 · 0 评论 -
安装HBase--单节点、伪分布式、完全分布式安装
1.下载HBase链接:http://mirrors.cnnic.cn/apache/hbase/选择 stable 目录,下载 bin 文件:在Linux上解压,博客中解压在/home/hadoop 目录下:进入解压目录:2.修改配置修改JDK路径、启用HBase自带zookeepervim conf/hbase-env.shJDK路径按照安装路径配置:启用自带z...原创 2018-11-15 13:28:52 · 507 阅读 · 0 评论 -
Hadoop--使用JavaAPI对文件解压、压缩
GitHub:https://github.com/GYT0313/Hadoop-JavaAPI-Code/tree/master/chapter5/src/org/gyt/hadoopCompression前言本次示例做了如下工作:将 bzip2 格式解压将文件压缩为 gzip 格式1. 上传 bzip2准备压缩文件:上传文件到 HDFS(注:/data 目录已存在):...原创 2018-11-09 16:11:04 · 2506 阅读 · 0 评论 -
Hadoop--使用JavaAPI编写wordcount的jar包
GitHub:1.创建项目创建三个类:Mapper、Reducer、Main驱动类(需要导入 jar包)2.代码WordMapper.java:package wordcount;import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.io.IntWrit...原创 2018-11-09 12:23:00 · 3423 阅读 · 0 评论 -
DFS Locations没有在左侧显示出来
配置好Map/Reduce 后,第二次打开,点击上次的配置,报如下错误:并且,eclipse左侧没有显示 DFS Locations:起初以为是报错才没有显示 DFS Locations。尝试了很多方法,也没有解决报错,始终点击将报错。最后无意中,发现只需要点击:如下左侧 DFS Locations出现:不过到此还没有理解报错的原因。完!...原创 2018-10-30 20:05:06 · 6465 阅读 · 4 评论 -
ant 编译 hadoop-eclipse-plugin.jar包
1.安装 antsudo apt-get install ant测试:2.下载 hadoop已配置 hadoop-2.7.3https://download.csdn.net/download/qq_38038143/10752615未配置,源码包https://download.csdn.net/download/qq_38038143/107526963.编译目录:...原创 2018-10-30 11:39:20 · 339 阅读 · 0 评论 -
Ubuntu+hadoop集群验证
1.集群搭建参考:https://blog.csdn.net/qq_38038143/article/details/83050840在已搭建的集群中,修改配置文件yarn-site.xml:与参考文章不同的原因为:执行运算命令时命令卡住即不能进一步执行。<configuration><!-- Site specific YARN configuration prop...原创 2018-10-23 19:48:02 · 286 阅读 · 0 评论 -
Ubuntu + Hadoop2.7.3伪分布搭建
1.在virtualbox上设置共享目录将 JDK 和 hadoop 压缩包上传到Ubuntu:参考链接:https://blog.csdn.net/qq_38038143/article/details/830178772.JDK安装在 /usr/local/ 下创建目录 java,将 JDK 解压到 java 目录,执行命令:sudo tar -zxvf /usr/local/...原创 2018-10-18 12:49:51 · 715 阅读 · 0 评论 -
Ubuntu + Hadoop2.7.3集群搭建
1.修改/etc/hosts文件,IP映射内容如下:注:10.13.7.72为master节点IP,10.13.7.71为slave节点IP。(根据自己的IP地址设置)2.修改master配置文件修改slaves,内容如下:slave修改hdfs-site.xml,内容如下:&amp;amp;amp;amp;amp;lt;configuration&amp;amp;amp;amp;amp;gt; &amp;amp;am原创 2018-10-14 21:05:10 · 546 阅读 · 0 评论 -
Hadoop搭建之VirtualBox+Redhat访问外网、远程登录、文件传输
1. 准备工具VirtualBoxRedhat-6.6(其他版本也可以)2. VirtualBox设置在设置里为Redhat添加两个网卡:网卡的连接方式分别为:网卡1-NAT --&amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;gt;虚拟机借助主机能够访问网络网卡2-桥接 --&amp;a原创 2018-09-18 16:43:33 · 978 阅读 · 0 评论 -
VMware-14.1.2 +CentOS7 + Hadoop-2.8.4 搭建集群环境,Windows下使用IDEA开发
前言如果你的电脑内存为8G,建议每台虚拟机给1G内存。推荐至少内存大于等于12G,每台虚拟机2G。1. 下载链接:https://pan.baidu.com/s/1cDTws1tfjRpCt8pGC8Szfw提取码:xq4q2. 安装软件(已安装可跳过直接看第3点,需要注意关闭防火墙)VMware(许可证中含有密钥)、XShell、IDEA的安装省略。安装CentOS-...原创 2020-01-01 14:33:52 · 557 阅读 · 1 评论