Rayfutao-CSDN博客

原创 Redis持久化

一、简介Redis是一种基于内存的非关系型数据库，它的所有数据都保存在内存中。因而会存在重启机器数据丢失情况。为避免这类情况发生，Redis支持数据持久化功能。通过配置，开启持久化，将数据保存到硬盘上。Redis提供了一系列不同的持久化选项：RDB持久性以指定的间隔执行数据集的实时快照。 AOF持久性记录服务器接收到的每一次写入操作，这些操作将在服务器启动时再次播放，重构原始数据集。...

2019-08-26 21:03:19 215

原创 Hive数据倾斜

一、什么是数据倾斜简单的讲，数据倾斜就是我们在计算数据的时候，数据的分散度不够，导致大量的数据集中到了一台或者几台机器上计算，这些数据的计算速度远远低于平均计算速度，导致整个计算过程过慢。主要表现任务进度长时间维持在 99%或者 100%的附近，查看任务监控页面，发现只有少量 reduce 子任务未完成，因为其处理的数据量和其他的 reduce 差异过大。单一 reduce 处理的...

2019-08-26 19:56:17 227

原创 Sqoop将MySQL数据导入到HDFS和Hive中

一、将数据从mysql导入 HDFSsqoop import --connect jdbc:mysql://192.168.76.1:3306/workflow --username root --password a --table project报错tool.ImportTool: Encountered IOException running import job: jav...

2019-08-26 16:50:53 574

一、ETL是什么ETL，是英文 Extract-Transform-Load 的缩写，用来描述将数据从来源端经过抽取（extract）、转换（transform）、加载（load）至目的端的过程。（数据仓库结构）通俗的说法就是从数据源抽取数据出来，进行清洗加工转换，然后加载到定义好的数据仓库模型中去。目的是将企业中的分散、零乱、标准不统一的数据整合到一起，为企业的决策提供分析依据。ETL是BI...

2019-08-26 15:53:40 1315

原创 spark阿里云集群搭建

因为现阶段使用到了spark，所以就想搭建spark集群平台在阿里云上，网上找了很多资料，发现每一个人写的都不太一样，试过几次发现搭建不成功，于是自己慢慢琢磨，总结他们的经验，最后自己成功搭建，写下此篇博客，防止以后再次需要搭建时遇到问题，以下为搭建步骤。hadoop、scala集群安装成功下载安装官网下载地址：http://spark.apache.org/downloads.htm...

2019-08-24 16:17:31 510

原创 java操作Zookeeper

介绍Zookeeper是一种作用于分布式应用高性能的调度服务。在zookeeper中提供了原生的API可以供我们开发使用，zookeeper官方的API文档网址：http://zookeeper.apache.org/doc/r3.4.11/api/index.html环境创建一个Maven项目pom.xml添加依赖<dependency> <gro...

2019-08-20 21:25:03 455

原创 Zookeeper详解

Zookeeper的基本概念1.1 角色Zookeeper中的角色主要有以下三类，如下表所示：系统模型如图所示：1.2 设计目的1.最终一致性：client不论连接到哪个Server，展示给它都是同一个视图，这是zookeeper最重要的性能。2 .可靠性：具有简单、健壮、良好的性能，如果消息m被到一台服务器接受，那么它将被所有的服务器接受。3 .实时性：Zoo...

2019-08-20 15:30:12 165

原创 Zookeeper原理

Zookeeper是什么官方文档上这么解释zookeeper，它是一个分布式服务框架，是Apache Hadoop 的一个子项目，它主要是用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。上面的解释有点抽象，简单来说zookeeper=文件系统+监听通知机制。Zookeeper提供了什么1、文件系统Zookeep...

2019-08-20 14:58:26 128

原创 Hadoop MapReduce

一、简介一种分布式的计算方式指定一个Map（映射）函数，用来把一组键值对映射成一组新的键值对，指定并发的Reduce（归约）函数，用来保证所有映射的键值对中的每一个共享相同的键组Pattern map: (K1, V1) → list(K2, V2) combine: (K2, list(V2)) → list(K2,...

2019-08-19 21:26:53 126

原创 Hadoop Yarn

一、Yarn架构Yarn就是将JobTracker的职责进行拆分，将资源管理和任务调度监控拆分成独立的进程：一个全局的资源管理和一个每个作业的管理（ApplicationMaster） ResourceManager和NodeManager提供了计算资源的分配和管理，而ApplicationMaster则完成应用程序的运行ResourceManager:全局资源管理和任务调度 No...

2019-08-19 20:39:44 550

原创 Hadoop HDFS

一、简介Hadoop Distributed File System，分布式文件系统二、架构Block数据块; 基本存储单位，一般大小为64M（hadoop2中是128M, 配置大的块主要是因为：1）减少搜寻时间，一般硬盘传输速率比寻道时间要快，大的块可以减少寻道时间；2）减少管理块的数据开销，每个块都需要在NameNode上有对应的记录；3）对数据块进行读写，减少建立网络...

2019-08-19 19:48:50 146

转载 spring注解

注解是个好东西，但好东西我们也是看见过，整理过，理解过，用过才知道好。不求我们每个都记住，但求保有印象，在需要的时候能提取出来再查找相关资料，平时工作就不会显得那么被动了。1.@Configuration注解该类等价与XML中配置beans，相当于Ioc容器，它的某个方法头上如果注册了@Bean，就会作为这个Spring容器中的Bean，与xml中配置的bean意思一样。@Conf...

2019-08-17 09:13:18 188

原创 Hive exited with status 1

使用sqoop将mysql数据导入到hadoop中再导入hive中报错如下：19/08/03 15:20:24 INFO hive.HiveImport: Loading uploaded data into Hive19/08/03 15:20:31 INFO hive.HiveImport: SLF4J: Class path contains multiple SLF4J bind...

2019-08-03 16:04:48 5405

原创 Hive集群搭建

一、Hive简介Hive 是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，数据储存在：hdfs上，hsql是由替换简单的mapreduce，hive通过mysql来记录映射数据。二、环境jdk可用hadoop集群可用mysql可用三台服务器：master、server1、server2三、Hive安装下载地址：https:/...

2019-08-02 11:07:53 590

转载 Sqoop报警告hcatalog does not exist!...accumulo does not exist!解决方案

执行Sqoop中import命令后报错解决方案：在$SQOOP_HOME/bin目录下面修改configure-sqoop文件，注释掉以下内容：然后先后执行start-dfs.sh与start-yarn.sh启动hadoop集群，Sqoop功能恢复正常。...

2019-07-31 11:44:03 478

原创 linux下python指向python3

root用户下输入，建立python可选项update-alternatives --install /usr/bin/python python /usr/bin/python2.7 2update-alternatives --install /usr/bin/python python /usr/bin/python3.6 1切换python版本sudo update-alt...

2019-07-30 21:30:34 1189

原创阿里云虚拟内存

SWAP(交换分区)，它的作用是当内存不够用的时候，将内存中不常使用的数据释放到硬盘上以达到减轻内存压力的目的，但使用swap时候会极大的降低系统性能，所以若是条件允许，建议提高内存容量。阿里云服务器默认没有开启虚拟内存，所以在软件运行中，大量服务启动时，会经常出现运行卡死崩溃现象而又不想花费支出昂贵的升级费用，这时候我们就可以自己开启虚拟内存来过渡一下1.查看当前内存使用情况...

2019-07-29 10:24:28 1521

原创 ModuleNotFoundError: No module named '_gdbm'

ubuntu16.04终端命令报错，就会显示ModuleNotFoundError: No module named 'gdbm'这个问题是由于没有找到模型所引起的解决方案命令端输入sudo apt-get install python3.6-gdbm...

2019-07-25 15:34:05 1014

原创 linux命令不能使用

对于经常使用linux的小伙伴来说，一些安装tomcat，hadoop，java，zookeeper等等，会经常需要配置环境变量，如果不小心改动一些地方就会导致几乎所有的重要命令不能使用，像source，tar，vi等等，这时候我们就可以使用下面的方法来解决。先用：echo $PATH...

2019-07-25 15:14:34 266

原创阿里云漏洞修复

如果不是工作而是自己使用的话，相信大部分人的服务器买的都是低配版的，因此服务器有可能会出现漏洞，这时候我们需要手动去修复这些漏洞，高配版的可以一键修复。其实手动修复也是很简单的，只需要几个命令就可以完成大部分的漏洞修复。这种修复一般都是升级一些软件就可以完成的...

2019-07-25 14:39:33 676

原创阿里云hadoop安装

一、JAVA安装解压jdk安装包到指定路径root@hadoop:~# tar -zxvf jdk1.8.0.tar.gz -C /usr配置环境变量root@hadoop:~# vim /etc/profile#文件底部加入export JAVA_HOME=/usr/jdk1.8.0_151export JRE_HOME=${JAVA_HOME}/jreexport CLASS...

2019-07-25 14:27:55 446

原创 Appium 运行start session时报错An unknown server-side error occurred while processing the command.

Appium 运行start session时报错An unknown server-side error occurred while processing the command.Original error: Error executing adbExec.Original error: ‘Command ‘‘D:\Program Files (x86)\Android-SDK\sdk\...

2018-11-30 21:25:49 21861 3