自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(47)
  • 收藏
  • 关注

原创 Hadoop部署文档

文章目录1. 先在阿里云主机按量付费配置三台主机2.软件版本3.集群规划4.集群目录结构5.环境准备6.安装 Zookeeper7. 安装 Hadoop(NameNode HA+ResourceManager HA)8.启动集群(第一次系统启动,需要初始化)遇到的问题1. 先在阿里云主机按量付费配置三台主机这三台阿里云主机作为三台集群的服务器,配置为2核,内存8G,centos 7.22....

2019-08-21 00:45:50 557 1

原创 hadoop之初识

文章目录1.Hadoop简介2.Hadoop的组成1.HDFS2.MAPREDUCE3.YARN3.HDFS3.1 HDFS 1.x3.2 HDFS 2.x4.Hdfs常用的shell命令1.Hadoop简介hadoop官网:在官网的第一句话,显示出了hadoop的三个特点:1.reliable:hadoop的HA,解决了单节点故障问题hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素 或存储出现故障,也不会导致数据的丢失。2.scalable:增添或者删除DataNod

2020-08-11 09:07:49 311

原创 scala(四)

文章目录1.字符串插值(推荐)2.List定长List变长ListzipWithIndex4.set5. map定长map变长mapmap遍历方式6.Option7.case class面试题:class 和 case class 的区别8.trait9.模式匹配内容匹配类型匹配匹配集合case class匹配(重要)10. scala 异常的处理 try catch11.柯里化( curryin...

2020-01-14 21:41:11 693 1

原创 CentOS 下/tmp目录文件保留时间

文章目录1.centos61.centos71.centos6CentOS6默认保留30天root@v01-apppre-mobile01 ~]# cd /etc/cron.daily[root@ruozedata000 cron.daily]# cat logrotate #!/bin/sh/usr/sbin/logrotate /etc/logrotate.conf >/d...

2020-01-13 19:37:31 1328 1

原创 latex格式

文章目录1.公式居中2.插入图片3.插入分段函数4.插入表格1.公式居中\begin{equation} y=f(\sum_{i=0}^{n}w_{i}x_{i})\end{equation}2.插入图片\begin{figure}[!ht] \centering \includegraphics[width=0.6\textwidth]{mlp.png} \caption{...

2019-12-16 18:44:36 418 1

原创 python 删除list中的第一个元素 坑

文章目录1.python 删除list中元素三种方式(一般)1. pop()2.del3.remove2.坑1.python 删除list中元素三种方式(一般)1. pop()1.默认删除最后一个元素.pop()中也可以传入参数,为list的索引2.pop() 接收的是索引,无参的情况下删除的是最后一个元素(典型的栈的特性)3.pop() 存在返回值,返回的是删除的元素值list=[1...

2019-12-08 13:01:54 39463

原创 numpy array 提取其中每个array中的第i个元素

文章目录1.最初数据格式2.需要转成的格式3.code1.最初数据格式list1=np.array([1,2,3,1,1])list2=np.array([4,5,6,2,3])list3=np.array([7,8,9,5,6])list4=np.array([17,18,19,6,7])list5=np.array([17,18,19,4,5])list = [ lis...

2019-12-08 00:14:06 5589

原创 Flume(一)

文章目录基本概念sourcechannelsink流程基本概念a flume agent is a JVM processsource收集从不同的地方去收集数据avro(****) 序列化execspoolingtaildir(*****)kafkachannel减少磁盘iomemory(****)/file(*****)/kafka/...

2019-09-13 15:18:05 117

原创 tensorflow(一)

文章目录1.tf简介2.GradientDescentOptimizer3.Session4.variable5.placeholder个人理解:1.tf简介什么是TensorFlow?TensorFlow是Google开发的一款神经网络的Python外部的结构包, 也是一个采用数据流图来进行数值计算的开源软件库.TensorFlow 让我们可以先绘制计算结构图, 也可以称是一系列可人机交...

2019-09-11 17:55:29 125 1

转载 乐观锁与悲观锁

何谓悲观锁与乐观锁乐观锁对应于生活中乐观的人总是想着事情往好的方向发展,悲观锁对应于生活中悲观的人总是想着事情往坏的方向发展。这两种人各有优缺点,不能不以场景而定说一种人好于另外一种人。悲观锁总是假设最坏的情况,每次去拿数据的时候都认为别人会修改,所以每次在拿数据的时候都会上锁,这样别人想拿这个数据就会阻塞直到它拿到锁(共享资源每次只给一个线程使用,其它线程阻塞,用完后再把资源转让给其它...

2019-09-08 23:55:14 95

原创 zookeeper

文章目录1.zookeeper基本概念2.zookeeper配置修改zoo.cfg的dataDir目录3.zkClils和ls2创建节点创建临时节点sequential不可以递归创建目录版本号变化watch四字命令API1.zookeeper基本概念zk的数据模型:树形结构ZK每个节点znode,有一个唯一的路径标识(/home/hadoop/app/ruozedata.txt)...

2019-09-08 14:06:12 120

原创 curator 监听数据节点子节点的变化情况

文章目录PathChildrenCacheAPIPathChildrenCacheNodeCache不仅可以监听节点内容变化,还可以监听指定节点是否存在。如果原本节点不存在,那么Cache就会在节点被创建时触发监听事件,如果该节点被删除,就无法再触发监听事件。PathChildrenCache用于监听数据节点子节点的变化情况。APIpackage com.ruozedata.bigd...

2019-09-07 16:32:45 3691

原创 Curator之基础操作

文章目录1.curator 概念2.API1.pom文件2.基本api1.curator 概念zookeeper原生API不得不说,有很多的问题,比如:不能递归创建和删除节点、Watcher只能使用一次、还有很多可以解决分布式应用问题的api(比如分布式锁,leader选举等),但由于ZooKeeper提供的原始API并不是很易用,在其基础上封装一些高级应用又是一件很复杂的事情。这个时候,C...

2019-09-07 15:41:33 295

原创 name node 安全模式

为什么NameNode会处于安全模式?1、NameNode发现集群中DataNode丢失达到一定比例(0.01%)时会进入安全模式,此时只允许查看数据不允许对数据进行任何操作。2、HDFS集群即使启动正常,启动只会依旧会进入安全模式一段时间,这时你不需要理会他,稍等片刻即可。3、集群升级维护时手动进入安全模式,命令如下hadoop dfsadmin -safemode enter退出安...

2019-09-06 12:47:06 415 1

原创 scala(三)

文章目录1.数组定长数组变长数组mapfilterzipflattenfindgroupBysortedWC1.数组定长数组scala> val a = new Array[String](5)a: Array[String] = Array(null, null, null, null, null)scala> a.lengthres4: Int = 5scala&...

2019-09-06 01:26:53 112

原创 scala(二)

文章目录1.类class基本用法占位符2.构造器主构造器附属构造器3.继承执行顺序子类重写toSting()继承中val和var4.抽象类5.class object6. applyclass apply1object apply 类名()==>object applyclass apply2总结其他看源码全局变量1.类class基本用法package com.ruozeda...

2019-09-05 17:27:19 115

原创 个人小结

文章目录1.学习知识的流程1.学习知识的流程

2019-09-05 12:14:36 134 1

原创 scala(一)

文章目录1.val var 值与变量2.数据类型3.function注意的点1.val var 值与变量注意Int首字母要大写.val的值不能改scala> val salary:int = 15000<console>:11: error: not found: type int val salary:int = 15000 ...

2019-09-03 20:42:54 242

原创 java生成流量日志

需求:输出如下格式数据域名 ruozedata.com时间 [09/01/2019 00:01:02 +0800]流量 4090 一部分日志是正确(数值类型) 一部分日志是错误的(字符串类型)ip x.x.x.x代码分析:域名生成随机字符串时间采用SimpleDateFormat(Date)记录当前时间.生成日志速度较快,因此采用Thread.sle...

2019-09-03 15:01:19 259

原创 数据库之三范式

大数据场景一般都不满足三范式,因为要尽量避免join,速度过慢

2019-09-02 17:16:17 141

原创 数仓理解

文章目录1.什么是数仓2.数仓和数据库的区别1.什么是数仓数据仓库( Data Warehouse ), 是为企业所有决策制定过程,提供所 有系统数据支持的战略集合。通过对数据仓库中数据的分析, 可以帮助企业,改进业务流程、控制 成本、提高产品质量等。数据仓库,并不是数据的最终目 的地,而是为数据最终的目的地做好 准备。这些准备包括对数据的:清洗, 转义,分类,重组,合并,拆分,统 计等等...

2019-09-02 17:15:52 1310

原创 hadoop之mr

文章目录1.mr之CombineTextInputFormat2.split size2.按行分片NLineInputFormat4.split大小与block的关系:5.reduce数量大于分区数1.mr之CombineTextInputFormat处理一个文件夹下的四个小文件,未使用CombineTextInputFormat.class //默认走的是TextInput...

2019-09-02 00:06:14 172

原创 mr自定义排序

文章目录1.需求:按照总流量排序(全局):代码结果2.需求:按照总流量排序(分区):代码结果1.需求:按照总流量排序(全局):reduce是按照key排序的自定义排序需要实现WritableComparable接口public interface WritableComparable<T> extends Writable, Comparable<T> {}...

2019-09-01 17:40:17 149

原创 mr分区代码

文章目录1.数据需求代码1.数据1363157985066 13726230503 00-FD-07-A4-72-B8:CMCC 120.196.100.82 i02.c.aliimg.com 24 27 2481 24681 2001363157995052 13826544101 5C-0E-8B-C7-F1-E0:CMCC 120.197.40.4 4 0 264 0 200...

2019-09-01 16:54:37 265

原创 idea java常用快捷键for mac

文章目录1.查找接口实现类的快捷键2.查看类或接口的继承关系1.查找接口实现类的快捷键command+ alt +B2.查看类或接口的继承关系command + h

2019-09-01 15:34:35 383

原创 hive对表的简单操作

hive删除EXTERNAL外表外表不能按一般步骤drop,否则得手动去hdfs rm -r xxx文件,并且还可能遇到因为文件太大而不能删除等问题;两个步骤:ALTER TABLE xxx SET TBLPROPERTIES(‘EXTERNAL’=‘False’);drop table xxx;...

2019-08-31 15:19:49 293

原创 linux常用命令及基础知识

文章目录1. linux常用命令其他1.linux目录作用1. linux常用命令#查看命令是否启动[kfk@mysql-server bin]$ ps -ef|grep redisroot 23543 1 0 16:58 pts/2 00:00:00 bash /usr/local/bin/rmate redis.confkfk 24074 23811...

2019-08-29 21:51:46 383

原创 javase 基础知识

文章目录1. StringBuilder and StringBuffer2.异常3.接口与抽象类4.并行,并发5.进程和线程6. volatile与synchronized区别1. StringBuilder and StringBuffer运行速度,或者说是执行速度在这方面运行速度快慢为:StringBuilder > StringBuffer > String  Str...

2019-08-29 21:43:40 90

转载 Java ——基础之继承与接口的区别

抽象类:抽象类体现了数据抽象的思想,是实现多态的一种机制。它定义了一组抽象的方法,至于这组抽象方法的具体表现形式由派生类来实现。同时抽象类提供了继承的概念,它的出发点就是为了继承,否则它没有存在的任何意义。所以说定义的抽象类一定是用来继承的,同时在一个以抽象类为节点的继承关系等级链中,叶子节点一定是具体的实现类。 在语法方面: 1.由abstract关键词修饰的类称之为抽象类。 2.抽象类...

2019-08-27 18:43:08 338

原创 hdfs 文件夹/文件名 rename

文章目录需求:1.先在hdfs中创建目录,上传文件2. code需求:HDFS上的目录结构:20191001这个参数不是写死的,是外面传进去的public static void rename(String time)/ruozedata/20191001/a.txt/ruozedata/20191001/b.txt/ruozedata/20191001/c.txt使用HDFS AP...

2019-08-27 13:16:10 2293

原创 note5-hdfs & mr api

文章目录1.部署idea2. idea创建hdfs目录遇到权限问题:owner问题3.copyFromLocalFile副本数不一样(hdfs-site.xml)4.通过流的方式(文件块的合并)5.MRwordcountlongWritable无默认构造方法-报错自定义的类一定要实现writable接口6.自定义序列化类的开发步骤补充单元测试core-site.xml里有配置端口1.部署idea...

2019-08-27 01:34:37 118

原创 Shell初学

文章目录1. 入门2.变量与非变量3.传递参数4.数组5.if6.for while7.分割8. awksed(用作替换)1. 入门一般脚本是以.sh结尾的,但有些没有which是从path环境变量查找后缀是以.sh结尾#!/bin/bashchmod u+x wc.shshell的debug有两种方式变量要大写root@zuozedata001 learn_shell]# ...

2019-08-26 14:13:40 99

原创 hadoop整理01

文章目录1.hdfs yarn常用命令整理2.整理故障案例3.预习 压缩哪几种,编译后的 执行 hadoop checknative 命令 输出结果是什么?为什么用snappy4.ruozedata002 standby节点机器上, 能不能直接读 hdfs dfs -ls hdfs://ruozedata002:8020/ ? 能不能直接写 hdfs dfs -put xxx.log hdfs:/...

2019-08-21 20:41:59 95

原创 hdfs整理

文章目录1.hdfs ha架构图梳理2.yarn ha架构图梳理3.总结hdfs yarn ha架构区别4.hdfs dfs -ls 结果是哪个目录5.双写的理解6.小文件的理解 什么的小文件,危害,如何避免(产生前,产生后)7.主从架构的hbase读写经过master进程吗?1.hdfs ha架构图梳理2.yarn ha架构图梳理3.总结hdfs yarn ha架构区别4.hdfs df...

2019-08-21 19:59:12 286 1

转载 HDFS小文件问题解决方案与启发实践

小文件的产生以及影响这里“小文件”的一个标准定义不应该说是绝对大小非常小的文件,这样说不够准确,而是应该值不满足一个块大小并且文件本身非常小的文件(比如大量不大1MB的文件)。小文件产生过多的原因很大一部分归结于用户的应用程度在执行的时候没有很好的预估写出数据量的规模,导致写出过多的小文件。如果小文件产生过多了,它会有什么严重的影响呢?主要为下面2点:加重HDFS的namespace命名...

2019-08-21 19:58:13 119

转载 hadoop的命名空间

示例:<property> <name>hbase.rootdir</name> <value>hdfs://hadoop01:9000/hbase</value></property>1234疑问:zookeeper集群被连接时的高可用,可以由地址写多份来保证,那么hdfs被连接时的高可用该如何保证呢,...

2019-08-21 11:25:09 1282

转载 转载CSDN博客

...

2019-08-21 11:16:39 69

原创 mac版secureCRT

下载mac版secureCRT地址:https://xclient.info/CRT保持连接

2019-08-20 10:17:52 1655 1

原创 markdown之格式

文章目录生成目录的方法:在第一行开头写[TOC]必须是第一行,不可以在前面加别的东西。分割线:三个减号"—"可以表示分割线

2019-08-19 21:17:18 75

原创 hadoop之yarn

1. yarn的简介Yarn 是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于 一个分布式的操作系统平台,而 MapReduce 等运算程序则相当于运行于操作 系统之上的应用程序。2. yarn的架构3. yarn的组件4.yarn的工作流程client向yarn提交job,首先找ResourceManager分配资源,ResourceManager开启一个Cont...

2019-08-19 21:06:03 113

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除