大数据开发
从2017年7月加入hadoop大阵营开始,不断的自学与项实践,发现其中的奥妙与坎坷,与君共分享,仅供参考。
xun-ming
坚持每月一篇
展开
-
Hadoop之pyspark执行hive sql
文章目录配置环境执行模式hive模式pyspark模式最终结果hive模式pyspark模式参考文章配置环境环境配置这里就不再多讲,只研究执行效率的对比sparkhadoop执行模式假设一个查询host出数量的sql是这样:select host,count(distinct c.mobile) as mobile_num from xml.my_goods d right j...原创 2018-09-25 11:31:27 · 10970 阅读 · 0 评论 -
Hadoop(CDH)之Hue、Hive操作
cdh全称为Cloudera’s Distribution Including Apache Hadoop原创 2018-08-27 19:03:25 · 5295 阅读 · 0 评论 -
Hadoop生态圈之Spark
1、spark-shell 进入spark模式,scala 2、简单示例//载入本地txt文件var xmfile = sc.textFile("file://Users/liuxunming/Desktop/TODO.txt")//计算总行数,res3: Long = 511xmfile.count()//取第一行,res4: String = 做了什么xmfile.firs...原创 2018-07-31 08:21:09 · 601 阅读 · 0 评论 -
Hadoop学习笔记之lzo文件格式
一、下载、安装、编译lzo二、修改Hadoop配置三、安装、编译hadoop-lzo-master四、检测是否配置成功1、hive方法2、job日志方法五、参考链接LZO(LZO是Lempel-Ziv-Oberhumer的缩写)是一种高压缩比和解压速度极快的编码,它的特点是解压缩速度非常快,无损压缩,压缩后的数据能准确还原,lzo是基于block分块的,允许数据被分...原创 2018-06-28 17:18:47 · 3260 阅读 · 0 评论 -
Hadoop学习笔记之Partitioner分区
partitioner意为分区,在hadoop中,这个阶段在map之后,reduce之前 具体实现共两步:1、设置分区类 job.setPartitionerClass(MyPartitioner.class); 自定义partitioner类,MyPartitioner,分区的依据,默认为HashPartitioner,如果不加这设置,仅有下面的setNumReduceTas...原创 2018-02-27 17:09:55 · 1118 阅读 · 0 评论 -
Hadoop学习笔记之avro文件格式
一、什么是avro英文简介 https://en.wikipedia.org/wiki/Apache_Avro 官网简介 http://avro.apache.org/docs/current/ avro是一个数据序列化系统,它提供丰富的数据结构快速可压缩的二进制数据形式存储持久数据的文件容器远程过程调用RPC简单的动态语言结合功能以上来源于avro百度百科,也是翻译于...原创 2018-03-27 19:28:51 · 3547 阅读 · 0 评论 -
Hadoop学习笔记之常用命令
Hdfs命令Hadoop命令Hbase命令实际应用其他命令其他Hdfs命令hdfs dfs -cat /urlba/url/url.txt|tail -5 后5行hdfs dfs -cat /urlba/url/url.txt|head -5 前5行hdfs dfs -cat /urlba/url/url.txt| shuf -n 5 随机5行。hdfs...原创 2017-10-27 09:58:23 · 1610 阅读 · 0 评论 -
Hadoop学习笔记之CapacityScheduler队列管理
关于在本地hadoop伪分布式环境下配置队列管理运算资源的问题记录 首先:照下面这个文章配置 Hadoop 设置队列计算能力调度器应用和配置 于是更改mapred.xml,配置capacity-scheduler.xml,配置完成后发现,在代码或者终端里加入队列名称,均显示找不到,后来看到该配置文件同级目录下有一个mapred-queues.xml文件,于是再抱有一丝希望的改了文件中的队列名原创 2017-11-07 11:47:18 · 2154 阅读 · 1 评论 -
Hadoop生态圈之Sqoop
1、sqoop是什么Sqoop是一个用来将Hive和Mysql中的数据相互转移的工具,也可以将Hdfs的数据导入到Mysql中。官方地址:http://sqoop.apache.org/2、安装配置2.1 安装sqoop安装包下载地址, http://mirrors.cnnic.cn/apache/sqoop/1.4.6/sqoop-1.4.6.bin__had...原创 2017-11-09 11:03:20 · 1185 阅读 · 3 评论 -
Hadoop生态圈之Pig
简介配置local模式mapreduce模式经典案例简介Pig是一个基于Hadoop的大规模数据分析工具,它提供的SQL-LIKE语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。[1] 相比Java的MapReduce api,Pig为大型数据集的处理提供了更高层次的抽象,与MapReduce相比,Pig提供了更丰富的数据原创 2017-11-29 11:19:38 · 8043 阅读 · 0 评论 -
Hadoop错误之 /bin/bash: /bin/java: No such file or directory
莫名的错误日志如下,该错误的产生原因大概可能由于重装hadoop环境有关SLF4J: Class path contains multiple SLF4J bindings.SLF4J: Found binding in [jar:file:/Users/liuxunming/MyConfigure/hadoop-2.7.4/share/hadoop/common/lib/slf4j-l原创 2018-01-05 16:35:46 · 11523 阅读 · 2 评论 -
Hadoop错误之namenode宕机的数据恢复
情景再现:在修复hadoop集群某一个datanode无法启动的问题时,搜到有一个答案说要删除hdfs-site.xml中dfs.data.dir属性所配置的目录,再重新单独启动该datanode即可; 问题就出在这个误删除上,当时是在namenode的hadoop/hdfs/目录下,然后就执行了一个可怕的命令rm -rf datarm -rf name #存储namenode永久性元原创 2018-01-09 17:49:51 · 6556 阅读 · 2 评论 -
Hadoop生态圈之分布式环境搭建
1安装模式单机模式伪分布模式完全分布式模式2环境搭建3添加新节点4初步实战5数据误删除恢复回收站恢复快照恢复编辑日志恢复6常见问题1安装模式hadoop有三种安装模式:单机模式Hadoop的默认模式,当首次解压Hadoop的源码包时,Hadoop无法了解硬件安装环境,便保守地选择了最小配置。在这种默认模式下所有3个XML文件均为空。当配原创 2017-08-11 14:45:12 · 3332 阅读 · 0 评论