自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

BigData

把时间当做朋友,耐心积累才是龙道!

  • 博客(86)
  • 资源 (8)
  • 收藏
  • 关注

原创 which: no hbase in (/export/servers/jdk1.8.0_141/bin:/usr/lib64/qt-

which: no hbase in (/export/servers/jdk1.8.0_141/bin:/usr/lib64/qt-3.3/bin:/usr/local/sbin:/usr/local/bin:/sbin:/bin:/usr/sbin:/usr/bin:/export/servers/zookeeper-3.4.5-cdh5.14.0//bin:/export/serve...

2019-07-26 15:41:46 6234

原创 FAILED: SemanticException Line 1:23 Invalid path ''export/data/hivedatas/student.csv'': No files mat

异常:hive (myhive)> load data local inpath 'export/data/hivedatas/student.csv' overwrite into table student;FAILED: SemanticException Line 1:23 Invalid path ''export/data/hivedatas/student.csv...

2019-07-26 14:12:55 5462 10

原创 hive的数据类型与语法详解

目录Hive的内置数据类型可以分为两大类:(1)基础数据类型:(2)集合数据类型(2.1)集合类型之array(2.1)集合类型之map(2.3)集合类型之struct语法代码:代码详解:Hive的内置数据类型可以分为两大类:(1)、基础数据类型;(2)、集合数据类型 分类 类型 描述 ...

2019-07-26 13:00:14 223

原创 Hive的DDL语法基本操作(创建数据库操作【公开版】)

创建数据库操作创建数据库hive (myhive)> create database if not exists myhive;hive (myhive)> use myhive;说明:hive的表存放位置模式是由hive-site.xml当中的一个属性指定的<name>hive.metastore.warehouse.dir</nam...

2019-07-26 12:14:10 284

原创 -bash: rz: command not found

linux中出现这种错误,-bash: rz: command not found解决方案:执行 yum install lrzsz

2019-07-25 21:42:12 185

原创 Yarn 调度器Scheduler(隐私版)

理想情况下,我们应用对Yarn资源的请求应该立刻得到满足,但现实情况资源往往是有限的,特别是在一个很繁忙的集群,一个应用资源的请求经常需要等待一段时间才能的到相应的资源。在Yarn中,负责给应用分配资源的就是Scheduler。其实调度本身就是一个难题,很难找到一个完美的策略可以解决所有的应用场景。为此,Yarn提供了多种调度器和可配置的策略供我们选择。在Yarn中有三种调度器可以选择:FIF...

2019-07-25 11:56:55 156

原创 Hadoop YARN介绍(私密版 )

翻译插件:Yarn通俗介绍:Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统和调度平台,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。可以把yarn理解为相当于一个分布式...

2019-07-25 10:46:08 232

原创 Hadoop集群动态扩容、缩容

目录动态扩容:1.基础准备1.1基本步骤:1.2添加datanode小总结:1.3datanode负载均衡服务动态缩容:2.1添加退役节点2.2刷新集群2.3 小总结:动态扩容:随着公司业务的增长,数据量越来越大,原有的datanode节点的容量已经不能满足存储数据的需求,需要在原有集群基础上动态添加新的数据节点。也就是俗称的动态扩容。...

2019-07-25 10:13:15 1438

原创 HDFS安全模式

目录1.现象:启动一个启动2个:启动3个(不会立即关闭):小总结:安全模式概述安全模式配置安全模式命令大总结:1.现象:启动一个启动2个:启动3个(不会立即关闭):小总结:安全模式概述安全模式是HDFS所处的一种特殊状态,在这种状态下,文件系统只接受读数据请求,而不...

2019-07-25 09:34:31 465

原创 hadoop的压缩算法

hadoop支持的压缩算法 压缩格式 工具 算法 文件扩展名 是否可切分 DEFLATE 无 DEFLATE .deflate 否 Gzip gzip...

2019-07-24 20:14:21 549

原创 hadoop配置名称,参数名称查找

不同版本的:http://hadoop.apache.org/docs/

2019-07-24 17:34:12 340

原创 MapReduce中的combiner

目录介绍:设计思想:优点:缺点:eg:(使用combiner数据结果变化)使用:job中设置:eg:(job设置)介绍:每一个map都可能会产生大量的本地输出,Combiner的作用就是对map端的输出先做一次合并,以减少在map和reduce节点之间的数据传输量,以提高网络IO性能,是MapReduce的一种优化手段之一。combiner是...

2019-07-23 17:23:41 680

原创 java.lang.Exception: java.io.IOException: Illegal partition for 13726230503 (3)

java.lang.Exception: java.io.IOException: Illegal partition for 13726230503 (3) at org.apache.hadoop.mapred.LocalJobRunner$Job.runTasks(LocalJobRunner.java:462) at org.apache.hadoop.mapred.Lo...

2019-07-23 16:36:30 1062

转载 2019年最新总结,阿里,腾讯,百度,美团,头条等技术面试题目,以及答案,专家出题人分析汇总。

阿里篇 华为篇 百度篇 腾讯篇 美团篇 头条篇 滴滴篇 京东篇 MySQL篇 Redis篇 MongDB篇 Zookeeper篇 Nginx篇 算法篇 内存篇 cpu篇 磁盘篇 网络通信篇 安全篇 并发篇阿里篇1.1.1 如何实现一个高效的单向链表逆序输出?1.1.2 已知sqrt(2)约等于1.414,要求不用数学库,求sqrt(2)精确到小数点后...

2019-07-23 14:45:31 1218

原创 统计每一个用户所耗费的总上行流量,下行流量,总流量

目录数据:需求:思路分析:具备知识:FlowBean javabeanFlowCountMapper:FlowCountReducer:美观一点:数据:1363157985066 13726230503 00-FD-07-A4-72-B8:CMCC 120.196.100.82 i02.c.aliimg.com 24 27 2481 24681 20...

2019-07-22 12:14:19 1469

原创 将流量汇总统计结果按照手机归属地不同省份输出到不同的文件

目录需求描述:需求分析:设计技术:默认的分区规则:如何自定义分区?ProvincePartitioner代码设计:运行结果:关于分区:大于影响​小于影响:小总结:需求描述:需求分析:设计技术:默认的分区规则:小测试验证:如何自定义分区?ProvincePartitioner...

2019-07-22 12:13:54 326

原创 需求:排序,倒序

目录数据准备:需求描述:需求分析:​涉及技术:代码设计:FlowBean(java):优化FlowCountSortMapper:FlowCountSort :FolowCountClient :运行结果:数据准备:13480253104 180 180 36013502468823 7335 110349 117684135...

2019-07-22 12:13:27 259

原创 hadoop的java.lang.InterruptedException

运行hadoop的时候,爆出来java.lang.InterruptedException:[root@node-1 text]# hadoop jar hadoop-04-1.0-SNAPSHOT.jar19/07/21 20:41:48 INFO client.RMProxy: Connecting to ResourceManager at node-1/192.168.52.10...

2019-07-21 21:27:54 3558

原创 idea如何查看类或是接口的依赖关系

我的这个是接口,所以需要往上查看。

2019-07-21 21:14:52 3411

原创 利用mapreduce统计单词出现的次数

需求描述:利用mapreduce,统计单词出现的次数设计思路:代码设计:目录结构:pom.xml:<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http:/...

2019-07-21 21:09:01 1438

原创 序列化与反序列化

专业解释:序列化:把对象转换为字节序列的过程称为对象的序列化。反序列化:把字节序列恢复为对象的过程称为对象的反序列化。通俗解释:从内存中读取硬盘中的数据过程,叫做序列化。从内存中写入硬盘中的数据过程,叫做反序列化。...

2019-07-21 16:40:09 124

原创 Hadoop的数据类型以及序列化问题

hadoop基本数据类型:java hadoop hadoop解释 byte ByteWritable 单字节数值 int Intwritable 整型数 double Doublewritab|e 双字节数值 float Floatwritable 浮点数 long LongWritable 长整型数...

2019-07-21 12:38:03 187

原创 Shell 命令行客户端

Hadoop提供了文件系统的shell命令行客户端,使用方法如下:hdfs文件系统[root@node-1 /]# hadoop fs -ls /本地文件系统:[root@node-1 /]# hadoop fs -ls file:///-ls使用方法:hadoop fs -ls [-h] [-R] <args>功能:显示文件、目录信息...

2019-07-20 20:10:00 325

原创 HDFS中的块为什么这么大?

hdfs数据块:每个磁盘都有默认的数据块大小,这是磁盘进行数据读/写的最小单位。构建于单个磁盘之上的文件系统通过磁盘块来管理该文件系统中的块,该文件系统块的大小可以是磁盘块的整数倍。文件系统块般为几千字节, 而磁盘块一般为512字节。这些信息(文件系统块大小)对于需要读/写文件的文件系统用户来说是透明的。尽管如此,系统仍然提供了一些工具(如df和fsck)来维护文件系统,由它们对文件系统中的...

2019-07-20 19:16:04 2002

原创 WARN hdfs.DataStreamer: Caught exception java.lang.InterruptedException

19/07/20 19:20:56 WARN hdfs.DataStreamer: Caught exceptionjava.lang.InterruptedException at java.lang.Object.wait(Native Method) at java.lang.Thread.join(Thread.java:1245) at java.lang.Thread.joi...

2019-07-20 19:01:10 1767 1

原创 Hadoop搭建的时候,安装包编译为什么要编译?

cdh版本编译 jar下载问题。因为官方只提供源码包 需要自己编译。软件运行某些特性跟操作系统相关 结合具体操作系统编译符合它版本的软件。修改源码中某些属性。编译的时候有个坑,有的虽然注释是1.7+。但是编译的时候,用1.8会出现各种各样的问题。建议编译的时候,用1.7jdk,不然你错都不知道你是怎么错的,后期的维护也会浪费大量的时间和精力。...

2019-07-20 14:08:49 1351

原创 ZooKeeper选举机制

zookeeper基础名称:概念:zookeeper默认的算法是FastLeaderElection,采用投票数大于半数则胜出的逻辑。服务器ID 比如有三台服务器,编号分别是1,2,3。 编号越大在选择算法中的权重越大。 选举状态 LOOKING,竞选状态。 FOLLOWING,随从状态,同步leader状态,参与投票。 OB...

2019-07-20 13:02:29 208

原创 如何在linux安装jdk?

第一步: 卸载linux系统 提供的jdk# 查询已安装的jdkrpm -qa | grep java# 卸载rpm -e --nodeps 软件包名第二步: 上传按照包到 /export/softwares , 解压到 /export/servers# 1 创建保存软件包目录mkdir -p /export/softwares/cd /export/softwares/ &a...

2019-07-19 20:13:02 99

原创 syntax error near unexpected token `do

问题:不同系统编码格式引起的:在windows系统中编辑的.sh文件可能有不可见字符,所以在Linux系统下执行会报以上异常信息。如果是上述的,则行结尾会是^m,需要转换成linux/unix格式的"\n"。解决方法是:sed 's/\r//' 原文件 > 转换后文件sed 's/\r//' zkStart.sh > zkStart1.sh...

2019-07-18 18:42:45 1139

原创 SecureCRT的破解教程

第1步:第2步:第3步:第4步:第5步:​​​​​​​第6步:​​​​​​​第7步:​​​​​​​第8步:​​​​​​​第9步:​​​​​​​第3步:​​​​​​​...

2019-07-18 08:38:36 1463

原创 Zookeeper框架搭建

第1步:创建统一的安装路径解压命令软件安装没有空格,没有中文创建统一的安装路径检测时间是否同步:检验关闭防火墙:检验主机名:别忘了修改这个,我的尽然忘了开始搭建:zk安装版本的目录结构:修改文件:(移动的时候,已经修改名字了)具体的修...

2019-07-17 16:20:57 135

原创 python3.6安装

第一步:注意:一定勾选环境变量的配置“1”第二步:第三步:第四步:

2019-07-17 15:40:25 102

原创 数据分析-----大数据精品介绍(一[公开版])

数据分析的定义:数据从哪里来?计量和记录把客观发生的事件量化成为数据数据分析:通过适当的数学方法和统计方法把隐藏在数据中的规律总结出来。数据分析的作用通过数据分析,支撑企业的决策和判断。>>>数据仓库由此而来在企业中,数据分析分为三个方向:原因分析----历史数据>>>离线分析现状分析----当前数据>&g...

2019-07-17 11:16:43 129

原创 大数据技术流程

1 javaEE与大数据的区别:1.1架构层面:javaEE:三层架构:表现层,业务层,持久层大数据:大数据的核心是数据,一切围绕着数据转,数据从哪里来到哪里去。1.2 技术层面:javaEE:成熟,解决方案多,技术集中大数据:相对年轻,迭代更新快,解决方案相对少,技术相对繁琐,杂,乱。1.3 开发层面:javaEE:代码量大,偏向业务...

2019-07-17 09:36:35 595

原创 动图制作

动图制作软件:GIF Movie GearUlead GIF Animatorps在线制作动图:http://gif.55.la/

2019-07-17 08:24:22 338

转载 十大经典排序算法之十>>>基数排序

基数排序基数排序是一种非比较型整数排序算法,其原理是将整数按位数切割成不同的数字,然后按每个位数分别比较。由于整数也可以表达字符串(比如名字或日期)和特定格式的浮点数,所以基数排序也不是只能使用于整数。基数排序 vs 计数排序 vs 桶排序基数排序有两种方法:这三种排序算法都利用了桶的概念,但对桶的使用方法上有明显差异:基数排序:根据键值的每位数字来分配桶; 计数排序:...

2019-07-17 08:23:53 317

转载 十大经典排序算法之九>>>桶排序

桶排序分类算法桶排序是计数排序的升级版。它利用了函数的映射关系,高效与否的关键就在于这个映射函数的确定。为了使桶排序更加高效,我们需要做到这两点:在额外空间充足的情况下,尽量增大桶的数量 使用的映射函数能够将输入的 N 个数据均匀的分配到 K 个桶中同时,对于桶中元素的排序,选择何种比较排序算法对于性能的影响至关重要。什么时候最快当输入的数据可以均匀的分配到每一个桶...

2019-07-17 08:23:40 251

转载 十大经典排序算法之八>>>计数排序

计数排序分类算法计数排序的核心在于将输入的数据值转化为键存储在额外开辟的数组空间中。作为一种线性时间复杂度的排序,计数排序要求输入的数据必须是有确定范围的整数。1. 计数排序的特征当输入的元素是 n 个 0 到 k 之间的整数时,它的运行时间是 Θ(n + k)。计数排序不是比较排序,排序的速度快于任何比较排序算法。由于用来计数的数组C的长度取决于待排序数组中数据的范围(等于...

2019-07-17 08:23:28 181

转载 十大经典排序算法之七>>>堆排序

堆排序分类算法堆排序(Heapsort)是指利用堆这种数据结构所设计的一种排序算法。堆积是一个近似完全二叉树的结构,并同时满足堆积的性质:即子结点的键值或索引总是小于(或者大于)它的父节点。堆排序可以说是一种利用堆的概念来排序的选择排序。分为两种方法:大顶堆:每个节点的值都大于或等于其子节点的值,在堆排序算法中用于升序排列; 小顶堆:每个节点的值都小于或等于其子节点的值,在堆排序算...

2019-07-17 08:23:15 206

转载 十大经典排序算法之六>>>快速排序

快速排序分类算法快速排序是由东尼·霍尔所发展的一种排序算法。在平均状况下,排序 n 个项目要 Ο(nlogn) 次比较。在最坏状况下则需要 Ο(n2) 次比较,但这种状况并不常见。事实上,快速排序通常明显比其他 Ο(nlogn) 算法更快,因为它的内部循环(inner loop)可以在大部分的架构上很有效率地被实现出来。快速排序使用分治法(Divide and conquer)策略来...

2019-07-17 08:22:53 469

gitbook相关.zip

1. 安装node-v10.16.2-x64.msi 2. 命令行执行node -v成功就是安装好了 nodejs 3. 命令行执行npm install gitbook-cli -g 4. 在讲义目录 执行 gitbook serve 5. 如果修改了内容需要 gitbook build 重新生成 然后gitbook serve启动 6. 打开 http://localhost:4000 即可看到html形式的讲义书籍 7. 或者 可以转成pdf看, 命令 gitbook pdf 即可 会生成一个 叫做 book.pdf的文件 转pdf需要安装 calibre-3.46.0.msi 安装好后重新打开命令行 执行 gitbook pdf 即可 8. 如果pdf字体过小,可以 在讲义目录下找到 或者新建 book.json加入如下内容

2020-03-09

json解析工具.zip

json的解析工具一共需要三个包 jackson-annotations-2.2.3.jar,jackson-core-2.2.3.jar,jackson-databind-2.2.3.jar ,我在博客里会有相应的使用教程。

2019-06-23

EL表达式所有jar包(包含两个)

el表达式的资源包,这个资源包和我写的片博客(统计网站的在线人数所对应)

2019-06-20

generator代码生成工具

设计数据库的数据表以后,可以直接根据数据表生成对应的相关实体类的代码.

2019-04-12

.m2解决方法

Project build error: Non-resolvable parent POM for com.taotao:taotao-common:0.0.1-SNAPSHOT: Could not find artifact com.taotao:taotao-parent:pom:0.0.1-SNAPSHOT and 'parent.relativePath' points at wrong local POM

2018-05-02

物联网技术资料

物联网技术,核心代码,无线网络射频识别技术。

2018-03-21

MySQL_5.1_zh.chm

MySQL帮助文档

2017-06-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除