cuteximi的技术分享

认真搞定一切。

kafka 数据可靠性深度解读

文章目录kafka 数据可靠性深度解读多分区、多副本多分区的设计的特点:kafak 分区 leader 机制 kafka 数据可靠性深度解读 多分区、多副本 kafka 的消息保存在Topic中,Topic可分为多个分区,为保证数据的安全性,每个分区又有多个Replia。 多分区的设计的特点: 1...

2018-12-13 21:45:35

阅读数 10

评论数 0

kafka 如何做到1秒发布百万级条消息?

kafka 如何做到1秒发布百万级条消息 kafak 提供的生产端的API发布消息到一个 topic 或者多个 topic 的一个分区(保证消息的顺序性)或多个分区(并行处理,不能保证消息的顺序性)。topic 可以理解为数据的类别,是一个逻辑概念。 维护一个Topic中的分区log,以顺序追加的...

2018-12-13 21:42:18

阅读数 14

评论数 0

HDFS的NameNode内存解析

概述 从整个HDFS系统架构上看,NameNode是其中最重要、最复杂也是最容易出现问题的地方,而且一旦NameNode出现故障,整个Hadoop集群就将处于不可服务的状态,同时随着数据规模和集群规模地持续增长,很多小量级时被隐藏的问题逐渐暴露出来。所以,从更高层次掌握NameNode的内部结构和...

2018-12-13 21:36:56

阅读数 30

评论数 0

用sqoop将mysql的数据导入到hive表中,原理分析

Sqoop 将 Mysql 的数据导入到 Hive 中 准备Mysql 数据 如图所示,准备一张表,数据随便造一些,当然我这里的数据很简单。 编写命令 编写参数文件 个人习惯问题,我喜欢把参数写到文件里,然后再命令行引用。 vim mysql-info, # 配置数据库连接信息 --connec...

2018-11-24 10:25:06

阅读数 49

评论数 0

Hive 内置函数权威指南,操作大全

Hive 提供了很多内置的函数,可以使我们很方便的操作一些数据。 比较运算 1、等值比较: = 语法:A=B 操作类型:所有基本类型 描述: 如果表达式A与表达式B相等,则为TRUE;否则为FALSE hive> select 1 from ximi wher...

2018-11-17 13:34:10

阅读数 37

评论数 0

Linux 下配置 Hadoop2.x 高可用 zookeeper Yarn,详细步骤。

前提准备 操作系统:Mac OS X JDK:1.8.0_121 命令终端:iTerm2(Mac自带的命令终端也一样,只是配置环境参数需要到/.bash_profile下添加,对于iTerm2需要到/.zshrc中添加) 软件包管理工具:brew(能够方便的安装和卸载软件,使用brew cash还...

2018-11-09 19:15:58

阅读数 40

评论数 0

Spark中foreachPartition和mapPartitions的区别

Spark中foreachPartition和mapPartitions的区别 spark的运算操作有两种类型:分别是Transformation和Action,区别如下: Transformation:代表的是转化操作就是我们的计算流程,返回是RDD[T],可以是一个链式的转化,并且是延迟触发的...

2018-12-20 20:36:42

阅读数 16

评论数 0

MR自定义二次排序

在一个数据文件中,首先按照key排序。 在key相同的情况下,按照value大小排序的情况称为二次排序。 自定义key :NewKey实现比较规则 自定义GroupingComparator方法 在map阶段,使用job.setInputFormatClass定义的InputFormat将输...

2018-12-13 21:39:58

阅读数 21

评论数 0

数据倾斜

文章目录数据倾斜什么是数据倾斜Map端倾斜(比较少见)Reduce端倾斜关联Join数据倾斜 数据倾斜 什么是数据倾斜 数据在集群上处理时,会被分配到各个节点上,当数据分配不均匀时,个别节点的数据量特别多,会导致整个任务变慢,甚至出现内存溢出程序失败的情况。 Map端倾斜(比较少见) Map...

2018-12-13 21:39:08

阅读数 10

评论数 0

MR的原理和运行流程

文章目录MR的原理和运行流程Map的运行过程Reduce处理过程Shuffle过程MR运行过程Yarn && Job MR的原理和运行流程 Map的运行过程 以HDFS上的文件作为默认输入源为例(MR也可以有其他的输入源) block是HDFS...

2018-12-13 21:37:50

阅读数 105

评论数 0

解决WARN TaskSchedulerImpl: Initial job has not accepted any resources;

解决WARN TaskSchedulerImpl: Initial job has not accepted any resources; spark-submit 可以提交任务到 spark 集群执行,也可以提交到 hadoop 的 yarn 集群执行 ./spark-submit \ –m...

2018-12-13 21:35:24

阅读数 48

评论数 0

HBase 架构详解

Hbase框架介绍 HBase是一个分布式的、面向列的开源数据库。 不同点: l 和一般的关系数据库不同,hbase是一个适合于非结构化数据存储的数据库。 l Hbase是基于列而不是基于行的模式。 在分布式的生产环境中,HBase 需要运行在 HDFS 之上,以 HDFS 作为其基础的存储设...

2018-12-06 10:24:19

阅读数 36

评论数 0

Hive问题汇总记录,持续更新

1.hive-site.xml s设置了 jdbc 的源,添加字符集的之后报错: 配置JDBC源遇到问题 : The reference to entity “characterEncoding” must end with the ‘;’ delimiter 这里的 &am...

2018-11-24 16:17:11

阅读数 26

评论数 0

【已解决】清除linux系统的多余引导

cd /boot && ls 2.使用VIM编辑器找到并打开gurb.conf文 vim grup.conf 3.删除即可。

2018-11-20 19:56:54

阅读数 221

评论数 0

Hive数据倾斜优化

Hive数据倾斜 Group By 中的计算均衡优化 1.Map端部分聚合 先看看下面这条SQL,由于用户的性别只有男和女两个值 (未知)。如果没有map端的部分聚合优化,map直接把groupby_key 当作reduce_key发送给reduce做聚合,就会导致计算不均衡的现象。虽然map有1...

2018-11-20 10:21:02

阅读数 22

评论数 0

杀掉僵尸 MapReduce 任务的两种方式

方法一 1.使用命令获取 job_id hadoop job -list 2. 杀掉进程 hadoop job -kill $JobId 方法二 使用 yarn 来管理; 1.通过 web 界面(8088端口)或命令,可以查看任务ID。 或者使用 yarn application -list ...

2018-11-18 15:58:10

阅读数 36

评论数 0

Go语言学习资料大全

C 语言太原始了,C++ 太复杂了,Go 语言是不二之选。有了 C/C++ 的功底,学习 Go 语言非常简单。 首推 Go by Example 作为你的入门教程。然后,Go 101 也是一个很不错的在线电子书。如果你想看纸书的话,The Go Programming Language 一书在...

2018-11-16 20:25:53

阅读数 46

评论数 0

Centos7 安装mysql 需要自己下载 rpm

一开始使用安装命令 :yum -y install mysql mysql-server mysql-devel 安装完成却发现Myserver安装缺失,在网上找原因,原来是因为CentOS 7上把MySQL从默认软件列表中移除了,用MariaDB来代替,所以这导致我们必须要去官网上进行下载,找到...

2018-11-16 00:57:36

阅读数 26

评论数 0

Linux centos6.5 安装mysql 以及简要操作书册

安装mysql 1、查看自己虚拟机有没有mysql的安装包 sudo rpm -qa | grep mysql 2、卸载:sudo rpm -e --nodeps mysql-libs-5.1.66-2.el6_3.x86_64 3、卸载完成之后再查看一下,确保卸载完成 4、安装mysql服务: ...

2018-11-16 00:52:15

阅读数 22

评论数 0

Linux centos 使用yum安装MySQL

使用 yum 安装 1.yum install mysql-server -y 2.yum install mysql-devel -y 3.启动 service mysqld start 此时 root 用户是没有免密的,可以直接使用 mysql命令 就可以连接上服务器。 4.使用 mysqla...

2018-11-16 00:50:28

阅读数 20

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭