- 博客(86)
- 资源 (8)
- 收藏
- 关注
原创 which: no hbase in (/export/servers/jdk1.8.0_141/bin:/usr/lib64/qt-
which: no hbase in (/export/servers/jdk1.8.0_141/bin:/usr/lib64/qt-3.3/bin:/usr/local/sbin:/usr/local/bin:/sbin:/bin:/usr/sbin:/usr/bin:/export/servers/zookeeper-3.4.5-cdh5.14.0//bin:/export/serve...
2019-07-26 15:41:46 6234
原创 FAILED: SemanticException Line 1:23 Invalid path ''export/data/hivedatas/student.csv'': No files mat
异常:hive (myhive)> load data local inpath 'export/data/hivedatas/student.csv' overwrite into table student;FAILED: SemanticException Line 1:23 Invalid path ''export/data/hivedatas/student.csv...
2019-07-26 14:12:55 5462 10
原创 hive的数据类型与语法详解
目录Hive的内置数据类型可以分为两大类:(1)基础数据类型:(2)集合数据类型(2.1)集合类型之array(2.1)集合类型之map(2.3)集合类型之struct语法代码:代码详解:Hive的内置数据类型可以分为两大类:(1)、基础数据类型;(2)、集合数据类型 分类 类型 描述 ...
2019-07-26 13:00:14 223
原创 Hive的DDL语法基本操作(创建数据库操作【公开版】)
创建数据库操作创建数据库hive (myhive)> create database if not exists myhive;hive (myhive)> use myhive;说明:hive的表存放位置模式是由hive-site.xml当中的一个属性指定的<name>hive.metastore.warehouse.dir</nam...
2019-07-26 12:14:10 284
原创 -bash: rz: command not found
linux中出现这种错误,-bash: rz: command not found解决方案:执行 yum install lrzsz
2019-07-25 21:42:12 185
原创 Yarn 调度器Scheduler(隐私版)
理想情况下,我们应用对Yarn资源的请求应该立刻得到满足,但现实情况资源往往是有限的,特别是在一个很繁忙的集群,一个应用资源的请求经常需要等待一段时间才能的到相应的资源。在Yarn中,负责给应用分配资源的就是Scheduler。其实调度本身就是一个难题,很难找到一个完美的策略可以解决所有的应用场景。为此,Yarn提供了多种调度器和可配置的策略供我们选择。在Yarn中有三种调度器可以选择:FIF...
2019-07-25 11:56:55 156
原创 Hadoop YARN介绍(私密版 )
翻译插件:Yarn通俗介绍:Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统和调度平台,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。可以把yarn理解为相当于一个分布式...
2019-07-25 10:46:08 232
原创 Hadoop集群动态扩容、缩容
目录动态扩容:1.基础准备1.1基本步骤:1.2添加datanode小总结:1.3datanode负载均衡服务动态缩容:2.1添加退役节点2.2刷新集群2.3 小总结:动态扩容:随着公司业务的增长,数据量越来越大,原有的datanode节点的容量已经不能满足存储数据的需求,需要在原有集群基础上动态添加新的数据节点。也就是俗称的动态扩容。...
2019-07-25 10:13:15 1438
原创 HDFS安全模式
目录1.现象:启动一个启动2个:启动3个(不会立即关闭):小总结:安全模式概述安全模式配置安全模式命令大总结:1.现象:启动一个启动2个:启动3个(不会立即关闭):小总结:安全模式概述安全模式是HDFS所处的一种特殊状态,在这种状态下,文件系统只接受读数据请求,而不...
2019-07-25 09:34:31 465
原创 hadoop的压缩算法
hadoop支持的压缩算法 压缩格式 工具 算法 文件扩展名 是否可切分 DEFLATE 无 DEFLATE .deflate 否 Gzip gzip...
2019-07-24 20:14:21 549
原创 MapReduce中的combiner
目录介绍:设计思想:优点:缺点:eg:(使用combiner数据结果变化)使用:job中设置:eg:(job设置)介绍:每一个map都可能会产生大量的本地输出,Combiner的作用就是对map端的输出先做一次合并,以减少在map和reduce节点之间的数据传输量,以提高网络IO性能,是MapReduce的一种优化手段之一。combiner是...
2019-07-23 17:23:41 680
原创 java.lang.Exception: java.io.IOException: Illegal partition for 13726230503 (3)
java.lang.Exception: java.io.IOException: Illegal partition for 13726230503 (3) at org.apache.hadoop.mapred.LocalJobRunner$Job.runTasks(LocalJobRunner.java:462) at org.apache.hadoop.mapred.Lo...
2019-07-23 16:36:30 1062
转载 2019年最新总结,阿里,腾讯,百度,美团,头条等技术面试题目,以及答案,专家出题人分析汇总。
阿里篇 华为篇 百度篇 腾讯篇 美团篇 头条篇 滴滴篇 京东篇 MySQL篇 Redis篇 MongDB篇 Zookeeper篇 Nginx篇 算法篇 内存篇 cpu篇 磁盘篇 网络通信篇 安全篇 并发篇阿里篇1.1.1 如何实现一个高效的单向链表逆序输出?1.1.2 已知sqrt(2)约等于1.414,要求不用数学库,求sqrt(2)精确到小数点后...
2019-07-23 14:45:31 1218
原创 统计每一个用户所耗费的总上行流量,下行流量,总流量
目录数据:需求:思路分析:具备知识:FlowBean javabeanFlowCountMapper:FlowCountReducer:美观一点:数据:1363157985066 13726230503 00-FD-07-A4-72-B8:CMCC 120.196.100.82 i02.c.aliimg.com 24 27 2481 24681 20...
2019-07-22 12:14:19 1469
原创 将流量汇总统计结果按照手机归属地不同省份输出到不同的文件
目录需求描述:需求分析:设计技术:默认的分区规则:如何自定义分区?ProvincePartitioner代码设计:运行结果:关于分区:大于影响小于影响:小总结:需求描述:需求分析:设计技术:默认的分区规则:小测试验证:如何自定义分区?ProvincePartitioner...
2019-07-22 12:13:54 326
原创 需求:排序,倒序
目录数据准备:需求描述:需求分析:涉及技术:代码设计:FlowBean(java):优化FlowCountSortMapper:FlowCountSort :FolowCountClient :运行结果:数据准备:13480253104 180 180 36013502468823 7335 110349 117684135...
2019-07-22 12:13:27 259
原创 hadoop的java.lang.InterruptedException
运行hadoop的时候,爆出来java.lang.InterruptedException:[root@node-1 text]# hadoop jar hadoop-04-1.0-SNAPSHOT.jar19/07/21 20:41:48 INFO client.RMProxy: Connecting to ResourceManager at node-1/192.168.52.10...
2019-07-21 21:27:54 3558
原创 利用mapreduce统计单词出现的次数
需求描述:利用mapreduce,统计单词出现的次数设计思路:代码设计:目录结构:pom.xml:<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http:/...
2019-07-21 21:09:01 1438
原创 序列化与反序列化
专业解释:序列化:把对象转换为字节序列的过程称为对象的序列化。反序列化:把字节序列恢复为对象的过程称为对象的反序列化。通俗解释:从内存中读取硬盘中的数据过程,叫做序列化。从内存中写入硬盘中的数据过程,叫做反序列化。...
2019-07-21 16:40:09 124
原创 Hadoop的数据类型以及序列化问题
hadoop基本数据类型:java hadoop hadoop解释 byte ByteWritable 单字节数值 int Intwritable 整型数 double Doublewritab|e 双字节数值 float Floatwritable 浮点数 long LongWritable 长整型数...
2019-07-21 12:38:03 187
原创 Shell 命令行客户端
Hadoop提供了文件系统的shell命令行客户端,使用方法如下:hdfs文件系统[root@node-1 /]# hadoop fs -ls /本地文件系统:[root@node-1 /]# hadoop fs -ls file:///-ls使用方法:hadoop fs -ls [-h] [-R] <args>功能:显示文件、目录信息...
2019-07-20 20:10:00 325
原创 HDFS中的块为什么这么大?
hdfs数据块:每个磁盘都有默认的数据块大小,这是磁盘进行数据读/写的最小单位。构建于单个磁盘之上的文件系统通过磁盘块来管理该文件系统中的块,该文件系统块的大小可以是磁盘块的整数倍。文件系统块般为几千字节, 而磁盘块一般为512字节。这些信息(文件系统块大小)对于需要读/写文件的文件系统用户来说是透明的。尽管如此,系统仍然提供了一些工具(如df和fsck)来维护文件系统,由它们对文件系统中的...
2019-07-20 19:16:04 2002
原创 WARN hdfs.DataStreamer: Caught exception java.lang.InterruptedException
19/07/20 19:20:56 WARN hdfs.DataStreamer: Caught exceptionjava.lang.InterruptedException at java.lang.Object.wait(Native Method) at java.lang.Thread.join(Thread.java:1245) at java.lang.Thread.joi...
2019-07-20 19:01:10 1767 1
原创 Hadoop搭建的时候,安装包编译为什么要编译?
cdh版本编译 jar下载问题。因为官方只提供源码包 需要自己编译。软件运行某些特性跟操作系统相关 结合具体操作系统编译符合它版本的软件。修改源码中某些属性。编译的时候有个坑,有的虽然注释是1.7+。但是编译的时候,用1.8会出现各种各样的问题。建议编译的时候,用1.7jdk,不然你错都不知道你是怎么错的,后期的维护也会浪费大量的时间和精力。...
2019-07-20 14:08:49 1351
原创 ZooKeeper选举机制
zookeeper基础名称:概念:zookeeper默认的算法是FastLeaderElection,采用投票数大于半数则胜出的逻辑。服务器ID 比如有三台服务器,编号分别是1,2,3。 编号越大在选择算法中的权重越大。 选举状态 LOOKING,竞选状态。 FOLLOWING,随从状态,同步leader状态,参与投票。 OB...
2019-07-20 13:02:29 208
原创 如何在linux安装jdk?
第一步: 卸载linux系统 提供的jdk# 查询已安装的jdkrpm -qa | grep java# 卸载rpm -e --nodeps 软件包名第二步: 上传按照包到 /export/softwares , 解压到 /export/servers# 1 创建保存软件包目录mkdir -p /export/softwares/cd /export/softwares/ &a...
2019-07-19 20:13:02 99
原创 syntax error near unexpected token `do
问题:不同系统编码格式引起的:在windows系统中编辑的.sh文件可能有不可见字符,所以在Linux系统下执行会报以上异常信息。如果是上述的,则行结尾会是^m,需要转换成linux/unix格式的"\n"。解决方法是:sed 's/\r//' 原文件 > 转换后文件sed 's/\r//' zkStart.sh > zkStart1.sh...
2019-07-18 18:42:45 1139
原创 SecureCRT的破解教程
第1步:第2步:第3步:第4步:第5步:第6步:第7步:第8步:第9步:第3步:...
2019-07-18 08:38:36 1463
原创 Zookeeper框架搭建
第1步:创建统一的安装路径解压命令软件安装没有空格,没有中文创建统一的安装路径检测时间是否同步:检验关闭防火墙:检验主机名:别忘了修改这个,我的尽然忘了开始搭建:zk安装版本的目录结构:修改文件:(移动的时候,已经修改名字了)具体的修...
2019-07-17 16:20:57 135
原创 数据分析-----大数据精品介绍(一[公开版])
数据分析的定义:数据从哪里来?计量和记录把客观发生的事件量化成为数据数据分析:通过适当的数学方法和统计方法把隐藏在数据中的规律总结出来。数据分析的作用通过数据分析,支撑企业的决策和判断。>>>数据仓库由此而来在企业中,数据分析分为三个方向:原因分析----历史数据>>>离线分析现状分析----当前数据>&g...
2019-07-17 11:16:43 129
原创 大数据技术流程
1 javaEE与大数据的区别:1.1架构层面:javaEE:三层架构:表现层,业务层,持久层大数据:大数据的核心是数据,一切围绕着数据转,数据从哪里来到哪里去。1.2 技术层面:javaEE:成熟,解决方案多,技术集中大数据:相对年轻,迭代更新快,解决方案相对少,技术相对繁琐,杂,乱。1.3 开发层面:javaEE:代码量大,偏向业务...
2019-07-17 09:36:35 595
转载 十大经典排序算法之十>>>基数排序
基数排序基数排序是一种非比较型整数排序算法,其原理是将整数按位数切割成不同的数字,然后按每个位数分别比较。由于整数也可以表达字符串(比如名字或日期)和特定格式的浮点数,所以基数排序也不是只能使用于整数。基数排序 vs 计数排序 vs 桶排序基数排序有两种方法:这三种排序算法都利用了桶的概念,但对桶的使用方法上有明显差异:基数排序:根据键值的每位数字来分配桶; 计数排序:...
2019-07-17 08:23:53 317
转载 十大经典排序算法之九>>>桶排序
桶排序分类算法桶排序是计数排序的升级版。它利用了函数的映射关系,高效与否的关键就在于这个映射函数的确定。为了使桶排序更加高效,我们需要做到这两点:在额外空间充足的情况下,尽量增大桶的数量 使用的映射函数能够将输入的 N 个数据均匀的分配到 K 个桶中同时,对于桶中元素的排序,选择何种比较排序算法对于性能的影响至关重要。什么时候最快当输入的数据可以均匀的分配到每一个桶...
2019-07-17 08:23:40 251
转载 十大经典排序算法之八>>>计数排序
计数排序分类算法计数排序的核心在于将输入的数据值转化为键存储在额外开辟的数组空间中。作为一种线性时间复杂度的排序,计数排序要求输入的数据必须是有确定范围的整数。1. 计数排序的特征当输入的元素是 n 个 0 到 k 之间的整数时,它的运行时间是 Θ(n + k)。计数排序不是比较排序,排序的速度快于任何比较排序算法。由于用来计数的数组C的长度取决于待排序数组中数据的范围(等于...
2019-07-17 08:23:28 181
转载 十大经典排序算法之七>>>堆排序
堆排序分类算法堆排序(Heapsort)是指利用堆这种数据结构所设计的一种排序算法。堆积是一个近似完全二叉树的结构,并同时满足堆积的性质:即子结点的键值或索引总是小于(或者大于)它的父节点。堆排序可以说是一种利用堆的概念来排序的选择排序。分为两种方法:大顶堆:每个节点的值都大于或等于其子节点的值,在堆排序算法中用于升序排列; 小顶堆:每个节点的值都小于或等于其子节点的值,在堆排序算...
2019-07-17 08:23:15 206
转载 十大经典排序算法之六>>>快速排序
快速排序分类算法快速排序是由东尼·霍尔所发展的一种排序算法。在平均状况下,排序 n 个项目要 Ο(nlogn) 次比较。在最坏状况下则需要 Ο(n2) 次比较,但这种状况并不常见。事实上,快速排序通常明显比其他 Ο(nlogn) 算法更快,因为它的内部循环(inner loop)可以在大部分的架构上很有效率地被实现出来。快速排序使用分治法(Divide and conquer)策略来...
2019-07-17 08:22:53 469
gitbook相关.zip
2020-03-09
json解析工具.zip
2019-06-23
.m2解决方法
2018-05-02
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人