hadoop
文章平均质量分 97
小强签名设计
真正牛逼的生活是既可以朝九晚五又可以浪迹天涯。
展开
-
Parquet 文件生成和读取
这种方式的 User 实体类和上面方式的 schema.avsc 文件中的。原创 2024-02-26 16:19:48 · 2874 阅读 · 0 评论 -
Hadoop命令总结
文章目录一、hadoop fs命令二、yarn相关命令一、hadoop fs命令查看文件内容,配合more:hadoop fs -cat /in/hadoop-hadoop-namenode-h71.log | more统计hdfs中文件的行数:hadoop fs -cat /in/hadoop-hadoop-namenode-h71.log | wc -l 输出:16509查看hdfs中文件的前n行:hadoop fs -text file | head -n 100查看hdfs中文件的后n行原创 2021-08-20 09:27:17 · 4267 阅读 · 1 评论 -
MapReduce自定义文件输出名
前言:MapReduce默认情况下,一个reducer产生一个文件,以name-r-nnnnn来命名,其中默认的name为part,nnnnn从(00000开始递增),保证了每个reducer不会产生重复的文件。 一、仅替代文件名part,输出结果为score-r-000001.使用org.apache.hadoop.mapreduce.lib.output.MultipleOu...原创 2019-10-17 22:28:20 · 1521 阅读 · 2 评论 -
新装的hadoop2版本无法运行mapreduce的解决方法
在hadoop用户下执行hadoop classpath命令,我们可以得到运行 Hadoop 程序所需的全部 classpath 信息。然后vi .bashrc(Debian版本,Redhat版本下是.bash_profile文件)添加:export CLASSPATH=.:/home/hadoop/hadoop-2.6.0-cdh5.5.2/etc/hadoop:/home/hadoop/had...原创 2017-05-03 18:14:16 · 4134 阅读 · 0 评论 -
Hadoop和Hbase动态扩展
环境:Centos7.2 64位hadoop-2.6.0-cdh5.5.2hbase-1.0.0-cdh5.5.2jdk1.8.0_91master:192.168.205.153slave1:192.168.205.154slave2:192.168.205.155新增节点slave3:192.168.205.156一、hadoop添加节点原创 2017-11-16 19:51:09 · 2067 阅读 · 0 评论 -
hadoop-2.6.0-cdh5.5.2安装
我这里是在Debian8.6.0版本的Linux操作系统下安装的hadoop-2.6.0-cdh5.5.2cdh5系列下载地址:http://archive.cloudera.com/cdh5/cdh/5/正真的第一步应该是同步时间,同步后得重启,否则的话会运行mr的时候会卡主不动,不同步运行mr的时候会报错:(红帽的话防火墙和selinux是否关闭,这都可能在安装中会报错,但Debian安装后防...原创 2017-05-05 18:31:35 · 2539 阅读 · 1 评论 -
mr解析xml将数据(ipv4、ipv6)批量导入hbase
首先在hbase中建立相应的表:hbase(main):003:0> create 'messages','cf'[hadoop@h71 hui]$ vi messages3.javaimport java.text.ParseException;import java.text.SimpleDateFormat;import java.util.Date;impor原创 2017-12-12 11:41:44 · 595 阅读 · 0 评论 -
MapReduce功能实现十---倒排索引(Inverted Index)
前言:"倒排索引"是文档检索系统中最常用的数据结构,被广泛地应用于全文搜索引擎。它主要是用来存储某个单词(或词组)在一个文档或一组文档中的存储位置的映射,即提供了一种根据内容来查找文档的方式。由于不是根据文档来确定文档所包含的内容,而是进行相反的操作,因而称为倒排索引(Inverted Index)1.模拟数据:[hadoop@h71 q1]$ vi file1.txtmapr原创 2017-08-02 10:59:30 · 12007 阅读 · 9 评论 -
MapReduce功能实现三---Top N
MapReduce功能实现系列:MapReduce功能实现一---Hbase和Hdfs之间数据相互转换MapReduce功能实现二---排序MapReduce功能实现三---Top NMapReduce功能实现四---小综合(从hbase中读取数据统计并在hdfs中降序输出Top 3)MapReduce功能实现五---去重(Distinct)、计数(Count)MapReduce功能实现六---最...原创 2017-08-29 13:45:56 · 7706 阅读 · 1 评论 -
MapReduce功能实现九---Pv、Uv
前言:这里给出的是hadoop1版本的代码,如果你把前面的知识都掌握了的话,我相信你自己也可以写出hadoop2版本的代码来。一、Pv[hadoop@h71 q1]$ vi ip.txt192.168.1.1192.168.2.2192.168.3.3192.168.2.21.1.1.1[hadoop@h71 q1]$ hadoop fs -put ip.t原创 2017-08-02 09:22:17 · 3395 阅读 · 0 评论 -
MapReduce功能实现八---分区(Partition)
[hadoop@h71 q1]$ vi aa.txt aa 1 2bb 2 22cc 11dd 1ee 99 99 999ff 12 23 123注意:这里的分隔符是/t(Tab键)而不是空格[hadoop@h71 q1]$ hadoop fs -put aa.txt /inputjava代码:import org.apache.hadoop.con原创 2017-08-02 09:14:14 · 3973 阅读 · 1 评论 -
myeclipse8.5运行hadoop2.6.0程序
我的环境:Windows10 64位系统Hadoop2.6.0-cdh5.5.2(或者Apache版的hadoop2.6.0)安装在虚拟机LinuxRedhat5.5 64位系统上MyEclipse8.5jdk1.7.0_25一、软件安装及配置1、下载hadoop-eclipse-plugin-2.6.0.jar,并将复制到D:\MyEclipse 8.5\dr原创 2017-04-26 11:32:50 · 1883 阅读 · 1 评论 -
解决mapreduce无法将数据批量导入hbase的问题
hadoop版本:hadoop-2.6.0-cdh5.5.2hbase版本:hbase-1.0.0-cdh5.5.2创建日志表:import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;i原创 2017-05-26 17:28:56 · 2021 阅读 · 0 评论 -
flume+kafka+storm+hdfs整合
基础环境:Redhat 5.5 64位(我这里是三台虚拟机h40,h41,h42)myeclipse 8.5jdk1.7.0_25Python-2.7.12zookeeper-3.4.5集群hadoop-2.6.0集群apache-storm-0.9.5集群kafka_2.10-0.8.2.0集群apache-flume-1.6.0-bin(h40主节点装就行)安装hadoop集群请参考:http...原创 2017-05-23 11:55:03 · 3811 阅读 · 0 评论 -
MapReduce功能实现十一---join
前言:对两份数据data1和data2进行关键词连接是一个很通用的问题,在关系型数据库中Join是非常常见的操作,各种优化手段已经到了极致。在海量数据的环境下,不可避免的也会碰到这种类型的需求,例如在数据分析时需要从不同的数据源中获取数据。不同于传统的单机模式,在分布式存储下采用MapReduce编程模型,也有相应的处理措施和优化方法。1.模拟数据:[hadoop@h71 q1]$原创 2017-08-02 11:04:29 · 2060 阅读 · 2 评论 -
MapReduce功能实现四---小综合(从hbase中读取数据统计并在hdfs中降序输出Top 3)
方法一:在Hbase中建立相应的表1:create 'hello','cf'put 'hello','1','cf:hui','hello world'put 'hello','2','cf:hui','hello hadoop'put 'hello','3','cf:hui','hello hive'put 'hello','4','cf:hui','hello hadoop原创 2017-07-25 18:05:55 · 4870 阅读 · 0 评论 -
MapReduce功能实现五---去重(Distinct)、计数(Count)
一、去重类似于db中的select distinct(x) from table , 去重处理甚至比WordCount还要简单[hadoop@h71 q1]$ vi hello.txthello worldhello hadoophello hivehello hadoophello worldhello world[hadoop@h71 q1]$ hadoop fs -原创 2017-07-26 09:27:15 · 13438 阅读 · 0 评论 -
MapReduce功能实现六---最大值(Max)、求和(Sum)、平均值(Avg)
一、最大值(Max)情况1:[hadoop@h71 q1]$ vi ql.txtaa 11122 555[hadoop@h71 q1]$ hadoop fs -put ql.txt /inputjava代码:import java.io.IOException;import org.apache.hadoop.conf.Configuration; import原创 2017-07-27 09:17:20 · 17129 阅读 · 2 评论 -
MapReduce功能实现七---小综合(多个job串行处理计算平均值)
复杂的MapReduce处理中,往往需要将复杂的处理过程,分解成多个简单的Job来执行,第1个Job的输出做为第2个Job的输入,相互之间有一定依赖关系。下面以求平均值为例1. 求Sum2. 求Count3. 计算平均数[hadoop@h71 q1]$ vi ceshi.txt28832353027[hadoop@h71 q1原创 2017-07-28 11:21:22 · 2141 阅读 · 0 评论 -
搭建hadoop2.6.0 HDFS HA及YARN HA
最终结果:[hadoop@h41 ~]$ jps12723 ResourceManager12995 Jps12513 NameNode12605 DFSZKFailoverController[hadoop@h42 ~]$ jps12137 ResourceManager12233 Jps12009 DFSZKFailoverController119原创 2017-05-08 17:09:14 · 2912 阅读 · 0 评论