![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
文章平均质量分 73
hadoop搭建
CrazyHacking望
这个作者很懒,什么都没留下…
展开
-
搜狗日志查询分析 (MapReduce+Hive+idea综合实验)
前提条件:安装好hadoop2.7.3(Linux系统下)安装好MySQL(Windows或Linux系统下)安装好Hive(Linux系统下)参考:Hive安装配置题目:从搜狗实验室下载搜索数据进行分析下载的数据包含6个字段,数据格式说明如下:访问时间 用户ID [查询词] 该URL在返回结果中的排名 用户点击的顺序号 用户点击的URL注意:1.字段分隔符:字段分隔符是个数不等的空格;2.字段个数:有些行有6个字段,有些达不到6个字段。问题:使用MapReduce和Hive原创 2021-12-12 19:45:35 · 5508 阅读 · 8 评论 -
Ubuntu16.04搭建hadoop真分布
前提条件有三台Ubuntu虚拟机虚拟机(可克隆实现)提示:在搭建之前先创建快照安装ssh获取远程连接以下安装均在普通用户(即:非root用户)下进行,例如:用户名为hadoop的普通用户$ sudo apt-get install openssh-server重启SSH服务$ sudo /etc/init.d/ssh restartxshell连接虚拟机查看ip地址ifconfig打开xshell连接成功三台虚拟机都连接映射ip与主机名修改主机名称为node_原创 2021-10-26 23:32:12 · 1150 阅读 · 1 评论 -
Ubuntu16.04配置hadoop+Hbase+基础命令使用
hadoop配置还在黄金段位(jdk未安装)的上了钻石再来!!一、下载hadoop网址:https://archive.apache.org/dist/hadoop/core/hadoop-2.7.0/二、文件上传Ubuntu将下载好的hadoop传到ubantu自己账号的根目录下(我用的是Xftp,传输文件需要root账号登陆!如果遇到root无法登陆请自行百度(我踩过的坑))注意:配置环境要在自己的账号下,我在root账户下配置不成功(jdk也一样)三、解压1、防止错误先:cd ~原创 2021-12-09 22:49:05 · 2019 阅读 · 0 评论 -
sqoop常用功能的使用
前提条件:安装好hadoop2.7.3(Linux系统下)安装好sqoop(Linux系统下),参考:Sqoop安装配置安装好MySQL(Windows系统下或者Linux系统下)安装好Hive(Linux系统下)参考:Hive安装配置安装好HBase(Linux系统下)参考:HBase1.3.1安装配置 HBase常用shell命令题目:一.MySQL与HDFS数据互导(相互导入导出)二.MySQL与Hive数据互导三.MySQL与HBase数据互导实验步骤:数据准备进入mys原创 2021-12-09 17:44:14 · 373 阅读 · 0 评论 -
解决Sqoop将mysql表数据导入到Hive时报错HiveConf和derby driver问题
执行sqoop import 语句将mysql表数据导入到Hive表 sqoop import --connect jdbc:mysql://localhost:3306/ua1 --username root --password 123 --table EMP --fields-terminated-by '\t' --num-mappers 1 --hive-database default --hive-import --hive-table hive_zhangsan出现如下HiveC原创 2021-12-09 12:09:20 · 249 阅读 · 0 评论 -
使用阿里云服务器配置hadoop时缺少namenode进程
配置vim /etc/hosts时如果需要重新格式化则需要删除hadoop下的logs和tmp文件再格式化格式化hdfs namenode -format原创 2021-12-08 23:32:12 · 208 阅读 · 0 评论 -
Flume安装配置
前提条件:安装好hadoop2.7.3(Linux系统下)已安装好的截图:安装步骤:下载flume安装文件,下载地址:http://archive.apache.org/dist/flume/下载版本:apache-flume-1.8.0-bin.tar.gz将下载的文件上传到Linux的~目录下解压tar -zxvf apache-flume-1.8.0-bin.tar.gz建立软链接ln -s apache-flume-1.8.0-bin flume原创 2021-12-07 13:29:27 · 782 阅读 · 0 评论 -
Hive安装配置
前提条件:安装好hadoop2.7.3(Linux环境);安装好MySQL5.7(参考:安装MySQL)用Navicat IP的方式连接到mysql数据库。并新建一个名为hive的数据库安装步骤:官网下载hive安装文件,下载地址:http://archive.apache.org/dist/hive/ 或者 https://mirrors.tuna.tsinghua.edu.cn/apache/hive/hadoop2.x需要下载hive-2.x.x,下载版本:apac原创 2021-12-06 22:21:13 · 334 阅读 · 0 评论 -
Maven工程的MapReduce程序3---实现统计各部门员工薪水总和功能(优化)
本文在实现统计各部门员工薪水总和功能的基础上进行,还没实现的话请参考:实现统计各部门员工薪水总和功能优化项目:1.使用序列化2.实现分区Patitioner3.Map使用Combiner使用序列化本案例是在实现统计各部门员工薪水总和功能基础上进行。序列化与反序列化:序列化是指将Java对象转换为二进制串的过程,方便网络传输;反序列化是指将二进制串转换为Java对象的过程。MapReduce编程模型及编程思路:与 实现统计各部门员工薪水总和功能相比,本案例要多建立一个Employee原创 2021-12-05 12:39:45 · 1154 阅读 · 0 评论 -
Maven工程的MapReduce程序2---实现统计各部门员工薪水总和功能
前提条件:安装好jdk1.8(Windows环境下)安装好Maven3.3.9(Windows环境下)安装好idea(Windows环境下)安装好hadoop(Linux环境下)输入文件:将以下内容复制到Sublime/或Notepad++等编辑器,另存为EMP.csv7369,SMITH,CLERK,7902,1980/12/17,800,,207499,ALLEN,SALESMAN,7698,1981/2/20,1600,300,307521,WARD,SALESM原创 2021-12-04 22:03:00 · 1484 阅读 · 0 评论 -
hadoop多次格式化namenode造成datanode无法启动问题解决
问题出现查看日志原因分析按日志内容来看,namenode和datanode的clusterID不一致。突然想起来之前格式化了两次namenode,应该是由于namenode多次格式化造成了namenode和datanode的clusterID不一致!每次格式化时,namenode会更新clusterID,但是datanode只会在首次格式化时确定,因此就造成不一致现象。在 … /hadoop-2.7.3/tmp/dfs文件下有data 和name两个文件继续cd进入 ls查看cd data/原创 2021-10-19 20:47:25 · 1524 阅读 · 0 评论 -
VMware下安装Ubuntu16.04服务器版
1.下载安装镜像:进入Ubuntu官网:https://ubuntu.com/download/alternative-downloads2.新建虚拟机3.启动并设置虚拟机默认回车回车选择English继续回车选择Hong Kong回车键盘布局选择no回车安装进程Hostname(主机名称)默认是ubuntu,建议改成node1,按Tab键选择继续输入名称不能有其他符号提示命名不规范重新填写 继续创建一个新用户,用户名原创 2021-10-21 13:29:10 · 187 阅读 · 0 评论 -
启动hadoop小技巧
1. 格式化Hadoop文件系统$ hdfs namenode -format执行以上命令后,输出若看到“Exiting with status 0”为格式化成功,否者可能哪个步骤出错,请再检查前面的设置。注意:格式化只需要进行一次,以后启动hadoop前不需要再次格式化。如果多次格式化点击此处2. 启动Hadoop2.1启动HDFS$ start-dfs.shjps查看进程,能看到除了jps之外有三个进程出现,分别是:NameNode、DataNode、SecondaryNameNode原创 2021-10-19 21:44:59 · 3321 阅读 · 0 评论 -
HDFS API编程 (idea Maven工程)
前提条件:Linux下安装好Hadoop2.7.3Windows下安装好MavenWindows系统下安装好ideaidea配置好Maven新建好Maven工程新建一个HDFS包并创建App类修改pom.xml添加Hadoop依赖在前一行添加如下语句:没有 就创建一个 <!-- 添加相关依赖 --> <dependency> <groupId>org.apache.hadoop</groupId> <原创 2021-10-19 22:58:13 · 309 阅读 · 0 评论