自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 收藏
  • 关注

原创 Redis持久化

一、简介Redis是一种基于内存的非关系型数据库,它的所有数据都保存在内存中。因而会存在重启机器数据丢失情况。为避免这类情况发生,Redis支持数据持久化功能。通过配置,开启持久化,将数据保存到硬盘上。Redis提供了一系列不同的持久化选项:RDB持久性以指定的间隔执行数据集的实时快照。 AOF持久性记录服务器接收到的每一次写入操作,这些操作将在服务器启动时再次播放,重构原始数据集。...

2019-08-26 21:03:19 154

原创 Hive数据倾斜

一、什么是数据倾斜简单的讲,数据倾斜就是我们在计算数据的时候,数据的分散度不够,导致大量的数据集中到了一台或者几台机器上计算,这些数据的计算速度远远低于平均计算速度,导致整个计算过程过慢。主要表现任务进度长时间维持在 99%或者 100%的附近,查看任务监控页面,发现只有少量 reduce 子任务未完成,因为其处理的数据量和其他的 reduce 差异过大。 单一 reduce 处理的...

2019-08-26 19:56:17 169

原创 Sqoop将MySQL数据导入到HDFS和Hive中

一、将数据从mysql导入 HDFSsqoop import --connect jdbc:mysql://192.168.76.1:3306/workflow --username root --password a --table project报错tool.ImportTool: Encountered IOException running import job: jav...

2019-08-26 16:50:53 464

转载 ETL简介

一、ETL是什么ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。(数据仓库结构)通俗的说法就是从数据源抽取数据出来,进行清洗加工转换,然后加载到定义好的数据仓库模型中去。目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。ETL是BI...

2019-08-26 15:53:40 984

原创 spark阿里云集群搭建

因为现阶段使用到了spark,所以就想搭建spark集群平台在阿里云上,网上找了很多资料,发现每一个人写的都不太一样,试过几次发现搭建不成功,于是自己慢慢琢磨,总结他们的经验,最后自己成功搭建,写下此篇博客,防止以后再次需要搭建时遇到问题,以下为搭建步骤。hadoop、scala集群安装成功下载安装官网下载地址:http://spark.apache.org/downloads.htm...

2019-08-24 16:17:31 413

原创 java操作Zookeeper

介绍Zookeeper是一种作用于分布式应用高性能的调度服务。在zookeeper中提供了原生的API可以供我们开发使用,zookeeper官方的API文档网址:http://zookeeper.apache.org/doc/r3.4.11/api/index.html环境创建一个Maven项目pom.xml添加依赖<dependency> <gro...

2019-08-20 21:25:03 422

原创 Zookeeper详解

Zookeeper的基本概念1.1 角色Zookeeper中的角色主要有以下三类,如下表所示:系统模型如图所示:1.2 设计目的1.最终一致性:client不论连接到哪个Server,展示给它都是同一个视图,这是zookeeper最重要的性能。2 .可靠性:具有简单、健壮、良好的性能,如果消息m被到一台服务器接受,那么它将被所有的服务器接受。3 .实时性:Zoo...

2019-08-20 15:30:12 128

原创 Zookeeper原理

Zookeeper是什么官方文档上这么解释zookeeper,它是一个分布式服务框架,是Apache Hadoop 的一个子项目,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,如:统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。上面的解释有点抽象,简单来说zookeeper=文件系统+监听通知机制。Zookeeper提供了什么1、文件系统Zookeep...

2019-08-20 14:58:26 89

原创 Hadoop MapReduce

一、简介一种分布式的计算方式指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组Pattern map: (K1, V1) → list(K2, V2) combine: (K2, list(V2)) → list(K2,...

2019-08-19 21:26:53 91

原创 Hadoop Yarn

一、Yarn架构Yarn就是将JobTracker的职责进行拆分,将资源管理和任务调度监控拆分成独立的进程:一个全局的资源管理和一个每个作业的管理(ApplicationMaster) ResourceManager和NodeManager提供了计算资源的分配和管理,而ApplicationMaster则完成应用程序的运行ResourceManager:全局资源管理和任务调度 No...

2019-08-19 20:39:44 436

原创 Hadoop HDFS

一、简介Hadoop Distributed File System,分布式文件系统二、架构Block数据块; 基本存储单位,一般大小为64M(hadoop2中是128M, 配置大的块主要是因为:1)减少搜寻时间,一般硬盘传输速率比寻道时间要快,大的块可以减少寻道时间;2)减少管理块的数据开销,每个块都需要在NameNode上有对应的记录;3)对数据块进行读写,减少建立网络...

2019-08-19 19:48:50 115

转载 spring注解

注解是个好东西,但好东西我们也是看见过,整理过,理解过,用过才知道好。不求我们每个都记住,但求保有印象,在需要的时候能提取出来再查找相关资料,平时工作就不会显得那么被动了。1.@Configuration注解该类等价 与XML中配置beans,相当于Ioc容器,它的某个方法头上如果注册了@Bean,就会作为这个Spring容器中的Bean,与xml中配置的bean意思一样。@Conf...

2019-08-17 09:13:18 143

原创 Hive exited with status 1

使用sqoop将mysql数据导入到hadoop中再导入hive中报错如下:19/08/03 15:20:24 INFO hive.HiveImport: Loading uploaded data into Hive19/08/03 15:20:31 INFO hive.HiveImport: SLF4J: Class path contains multiple SLF4J bind...

2019-08-03 16:04:48 5141

原创 Hive集群搭建

一、Hive简介Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,数据储存在:hdfs上,hsql是由替换简单的mapreduce,hive通过mysql来记录映射数据。二、环境jdk可用hadoop集群可用mysql可用三台服务器:master、server1、server2三、Hive安装下载地址:https:/...

2019-08-02 11:07:53 521

转载 Sqoop报警告hcatalog does not exist!...accumulo does not exist!解决方案

执行Sqoop中import命令后报错解决方案:在$SQOOP_HOME/bin目录下面修改configure-sqoop文件,注释掉以下内容:然后先后执行start-dfs.sh与start-yarn.sh启动hadoop集群,Sqoop功能恢复正常。...

2019-07-31 11:44:03 424

原创 linux下python指向python3

root用户下输入,建立python可选项update-alternatives --install /usr/bin/python python /usr/bin/python2.7 2update-alternatives --install /usr/bin/python python /usr/bin/python3.6 1切换python版本sudo update-alt...

2019-07-30 21:30:34 1129

原创 阿里云虚拟内存

SWAP(交换分区),它的作用是当内存不够用的时候,将内存中不常使用的数据释放到硬盘上以达到减轻内存压力的目的,但使用swap时候会极大的降低系统性能,所以若是条件允许,建议提高内存容量。阿里云服务器默认没有开启虚拟内存,所以在软件运行中,大量服务启动时,会经常出现运行卡死崩溃现象而又不想花费支出昂贵的升级费用,这时候我们就可以自己开启虚拟内存来过渡一下1.查看当前内存使用情况...

2019-07-29 10:24:28 1275

原创 ModuleNotFoundError: No module named '_gdbm'

ubuntu16.04终端命令报错,就会显示ModuleNotFoundError: No module named 'gdbm'这个问题是由于没有找到模型所引起的解决方案命令端输入sudo apt-get install python3.6-gdbm...

2019-07-25 15:34:05 921

原创 linux命令不能使用

对于经常使用linux的小伙伴来说,一些安装tomcat,hadoop,java,zookeeper等等,会经常需要配置环境变量,如果不小心改动一些地方就会导致几乎所有的重要命令不能使用,像source,tar,vi等等,这时候我们就可以使用下面的方法来解决。先用:echo $PATH...

2019-07-25 15:14:34 217

原创 阿里云漏洞修复

如果不是工作而是自己使用的话,相信大部分人的服务器买的都是低配版的,因此服务器有可能会出现漏洞,这时候我们需要手动去修复这些漏洞,高配版的可以一键修复。其实手动修复也是很简单的,只需要几个命令就可以完成大部分的漏洞修复。这种修复一般都是升级一些软件就可以完成的...

2019-07-25 14:39:33 611

原创 阿里云hadoop安装

一、JAVA安装解压jdk安装包到指定路径root@hadoop:~# tar -zxvf jdk1.8.0.tar.gz -C /usr配置环境变量root@hadoop:~# vim /etc/profile#文件底部加入export JAVA_HOME=/usr/jdk1.8.0_151export JRE_HOME=${JAVA_HOME}/jreexport CLASS...

2019-07-25 14:27:55 398

原创 Appium 运行start session时报错An unknown server-side error occurred while processing the command.

Appium 运行start session时报错An unknown server-side error occurred while processing the command.Original error: Error executing adbExec.Original error: ‘Command ‘‘D:\Program Files (x86)\Android-SDK\sdk\...

2018-11-30 21:25:49 21615 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除